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本 书 以 博弈 论 为 理论 分 析 工 具 , 主 要 论述 和 分 析 无 线 传感器 网 络 安全 领域 的 若干 关键 问题 。 第 1 章 
介绍 研究 背景 ; 第 2 章 概述 相关 的 博弈 类 型 ; 第 3 章 给 出 基于 信和 号 博弈 的 无 线 传感器 网 络 人 侵 检 测 模型 ， 
确定 何 时 启动 人 侵 检测 系统 的 最 优 策略 ; 第 4 章 描述 基于 演化 博弈 的 无 线 传感器 网 络 节点 的 信任 模型 ,六 
明 节点 信任 演化 动力 学 规律 ; 第 5 章 基于 微分 博弈 给 出 无 线 传感器 网 络 恶意 程序 传播 的 最 优 控制 策略 ; 
第 6 章 基 于 随机 博弈 和 Markov 链 建立 受 攻击 无 线 传感器 网 络 可 生存 性 模型 ,形成 可 生存 性 分 析 的 理论 和 
方法 ; 第 7 章 针对 受 攻 击 协调 器 节点 ,给 出 基于 随机 博弈 的 防御 技术 ,再 利用 演化 博弈 实现 协调 器 节点 的 
选择 ; 第 8 章 阐述 传 感 云 数据 外 包 中 心 访问 控制 系统 的 安全 分 析 框 架 , 给 出 基于 证 书 认证 博弈 的 安全 优化 
策略 ; 第 9 章 基 于 随机 演化 联盟 博弈 给 出 受 攻击 虚拟 传 感 云 服务 系统 的 自 适应 防御 策略 ; 第 10 章 介绍 无 
线 传感器 网 络 物理 层 安全 技术 ,基于 演化 博弈 中 的 复制 动力 学 方程 实现 一 种 传感器 节点 保密 率 自 适 应 调 
节 的 方法 。 
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[ FOREWORD 


无 线 传感器 网 络 (Wireless Sensor Networks) 由 大 量 部 署 在 监测 区 域内 的 廉价 微型 传 
感 器 节点 组 成 ,通过 无 线 网 络 通信 传输 方式 形成 一 个 自 组 织 、 自 适应 、 多 跳 的 智能 网 络 系统 ， 
其 目的 是 协作 地 实时 监测 ,感知 和 采集 各 种 环境 或 监测 对 象 的 信息 (如 温度 ,湿度 .气压 等 )， 
再 通过 基站 发 送 给 管理 者 。 当 前 ,其 在 工农 业 ,城市 管理 .生物 医疗 .环境 监测 .军事 等 众多 
领域 已 被 公认 具有 十 分 广阔 的 应 用 前 景 。 

无 线 传感器 网 络 作为 一 种 任务 型 网 络 ,不 仅 要 进行 数据 的 传输 ,而 且 要 进行 数据 融合 、 
任务 的 协同 控制 等 。 如 何 保证 任务 执行 的 机 密 性 、 数 据 产 生 的 可 靠 性 以 及 数据 传输 的 安全 
性 ,就 成 为 无 线 传感器 网 络 安全 需要 全 面 考虑 的 内 容 。 可 以 说 ,安全 问题 是 制约 无 线 传感器 
网 络 发 展 和 应 用 的 一 个 关键 因素 。 

博弈 论 是 研究 两 个 或 多 个 参与 者 谋略 和 决策 问题 的 理论 ,能 为 无 线 传感器 网 络 安全 的 
研究 提供 新 颖 的 思路 。 无 线 传感器 网 络 具 有 自 组 织 ,无 控制 中 心 ,动态 拓扑 、 资 源 有 限 等 主 
要 特点 ,这 些 特点 决定 了 每 个 节点 在 通信 时 都 会 有 自己 的 决策 。 那 么 , 当 节 点 需要 做 出 决策 
时 , 哪 一 种 是 最 优 的 ? 节点 也 许 会 表现 自私 而 寻求 只 对 自身 有 益 的 决策 ,甚至 会 表现 恶意 而 
选择 破坏 网 络 性 能 的 决策 。 利 用 非 合作 博弈 对 这 些 情 况 进 行 研究 能 找到 很 好 的 答案 。 当 
然 ,这 里 的 非 合作 博 弈 包括 了 多 种 形式 ,如 信号 博弈 、 随 机 博弈 ,微分 博弈 等 。 另 外 ,还 可 以 
选择 演化 博弈 对 节点 行为 的 动态 演化 进行 研究 。 

本 书 以 博弈 论 为 理论 分 析 工 具 , 主 要 分 析 和 解决 无 线 传感器 网 络 安 全 领域 的 若干 关键 
问题 。 

第 1 章 从 无 线 传感器 网 络 安全 的 需求 出 发 ,说 明博 弈 论 与 无 线 传感器 网 络 安全 之 间 的 
相互 关系 。 

第 2 章 给 出 博弈 论 的 基本 概念 ,介绍 适合 不 同情 况 的 博弈 类 型 ,为 后 续 章 节 博 弈 论 的 应 
用 和 相关 工作 的 比较 提供 知识 准备 。 

第 3 章 应 用 信号 博弈 描述 并 分 析 恶 意 传感器 节点 和 无 线 传感器 网 络 人 侵 检测 系统 之 间 
的 交互 过 程 。 在 每 个 独立 的 阶段 .建立 “阶段 入 侵 检测 博弈 "模型, 分别 得 到 该 模型 的 纯 策略 
贝 叶 斯 均衡 和 混合 策略 贝 叶 斯 均衡 。 随 着 博弈 的 重复 ,通过 构建 “多 阶段 动态 人 侵 检测 博 
弈 ?来 反映 恶意 传感器 节点 和 和 人 侵 检 测 代理 之 间 的 交互 活动 ,得 到 相应 的 完美 贝 叶 斯 均 衔 ， 
再 在 此 基础 上 实现 人 侵 检 测 启动 最 优 策略 的 机 制 和 算法 。 

第 4 章 利用 演化 博弈 研究 和 分 析 传感器 节点 间 的 信任 决策 过 程 ,根据 各 个 传感器 节点 
能 选择 不 同 策略 的 实际 情况 建立 “无 线 传感器 网 络 信任 博弈 ?模型 ,通过 整合 激励 机 制 参数 
来 说 明 激 励 机 制 对 传感器 节点 选择 动作 的 影响 ,使 用 复制 动态 动力 学 方程 探索 博弈 模型 的 
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演化 稳定 策略 ,从 而 揭示 无 线 传感器 网 络 中 各 传感器 节点 间 的 信任 演化 原理 。 

第 5 章 扩展 经 典 流行 病理 论 使 之 适合 无 线 传感器 网 络 恶意 程序 传播 现状 ,并 引入 不 同 
的 参数 来 揭示 无 线 传感器 网 络 恶意 程序 传播 过 程 。 然 后 将 恶意 程序 在 无 线 传感器 网 络 传播 
时 “无 线 传感器 网 络 系 统 " 和 “恶意 程序 ”之 间 的 决策 交互 过 程 看 作 优化 控制 问题 ,建立 相应 
的 微分 博弈 模型 ,在 “恶意 程序 ”动态 改变 其 策略 的 前 提 下 ,得 到 “无 线 传感器 网 络 系统 ”的 最 
优 控制 策略 ,为 控制 无 线 传感器 网 络 恶意 程序 传播 的 机 制 设 计 提 供 理论 基础 。 

第 6 章 从 可 靠 度 和 可 用 度 两 方面 评估 受 攻击 无 线 传感器 网 络 的 可 生存 性 属性 。 由 于 恶 
意 攻击 者 总 是 故意 发 动 恶意 攻击 行为 ,通过 随机 博弈 给 出 这 些 理性 恶意 攻击 者 采取 恶意 攻 
击 的 期 望 概率 ,将 聚 簇 无 线 传感器 网 络 看 作 一 个 串 一 并 系统 ,再 利用 连续 时 间 马 尔 可 夫 链 对 
受 攻击 传感器 节点 生命 期 的 所 有 状态 建立 模型 ,基于 可 靠 性 理论 得 到 计算 受 攻击 传感器 节 
点 平均 无 故障 时 间 、 可 靠 度 、 生 存 期 和 稳 态 可 用 度 的 计算 公式 ,实现 受 攻 击 无 线 传感器 网 络 
的 可 生存 性 评估 。 

第 7 章 以 最 小 化 从 源 到 目的 节点 的 数据 包 分 发 平均 跳 数 并 且 延 长 网 络 生命 期 为 目标 ， 
提出 了 基于 博弈 论 和 模糊 多 辑 的 协调 器 节点 选择 算法 。 在 此 算法 中 , 先 使 用 随机 博弈 对 攻 
击 进行 动态 响应 ,然后 通过 模糊 逻辑 选择 通信 质量 较 好 的 节点 作为 协调 器 节点 ,提高 网 络 的 
服务 质量 和 安全 性 。 

第 8 章 阐述 了 基于 动态 证 书 博弈 的 认证 系统 框架 。 在 证 书 认证 博弈 交互 过 程 中 ,通过 
认证 代理 补偿 一 定 的 信任 度 来 激励 传 感 去 用 户 出 示 更 多 的 证 书 ,以 提高 其 信任 度 。 传 感 云 
用 户 和 认证 协调 器 通过 平衡 证 书 泄露 和 信任 补偿 之 间 的 关系 来 决定 是 否 用 户 能 够 操作 外 包 
数据 。 其 中 ,认证 协调 器 决定 每 次 博弈 信任 度 ,认证 代理 决定 信任 度 分 配 ,再 将 动态 证 书 博 
弈 系统 框架 模型 化 为 三 阶段 博弈 ,并 使 用 迭代 博弈 学 习 方 法 证 明 信 任 协同 的 稳定 性 。 与 传 
统 的 基于 属性 和 本 体 的 访问 控制 系统 相 比 ,基于 动态 证 书 博弈 的 认证 系统 框架 提高 了 安全 
效用 和 认证 性 能 。 

第 9 章 提出 了 基于 随机 演化 联盟 博弈 框架 的 受 攻击 虚拟 传 感 云 服务 系统 安全 机 制 。 在 
博弈 的 每 一 阶段 ,虚拟 传 感 云 服务 提供 者 能 够 观察 到 服务 组 合 节点 的 虚拟 容量 和 攻击 者 采 
取 的 攻击 策略 ,根据 这 些 观察 ,决定 需 分 配 的 虚拟 容量 值 来 保证 可 靠 安全 的 服务 组 合 。 虚 拟 
传 感 云 服务 提供 者 通过 minimax-Q 和 演化 联盟 形成 算法 , 自 适应 地 变化 防御 策略 ,形成 可 
靠 安全 的 服务 组 合 对 攻击 者 进行 动态 防御 。 与 随机 博弈 和 演化 联盟 博弈 相 比 , 随 机 演化 联 
盟 博 弈 框架 在 动态 虚拟 的 安全 服务 组 合 过 程 中 获得 了 较 好 的 性 能 。 

第 10 章 通过 扩展 经 典 窃听 信道 模型 ,针对 聚 簇 无 线 传感器 网 络 提 出 了 传感器 节点 和 其 
对 应 簇 头 节点 之 间 的 保密 率 计算 方法 ,构建 了 一 个 非 合作 保密 率 博弈 模型 ,以 反映 传感器 节 
点 之 间 的 交互 关系 。 利 用 演化 博弈 思想 ,建立 了 传感器 节点 自 适应 选择 发 射 功 率 的 机 制 , 提 
出 了 传感器 节点 保密 率 的 自 适应 调节 算法 ,为 保证 无 线 传感器 网 络 数据 的 保密 性 提供 了 新 
途径 。 

本 书 是 作者 多 年 研究 博弈 论 和 无 线 传感器 网 络 安全 的 成 果 , 其 中 , 沈 士 根 教授 负责 撰写 
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本 章 从 无 线 传感器 网 络 的 研究 背景 和 无 线 传感器 网 络 安全 的 需求 出 发 ,说 明博 弈 论 与 
无 线 传感器 网 络 安全 之 间 的 关系 ,给 出 本 书 的 组 织 结构 。 


1.1 研究 背景 


微 电 子 技术 、 计 算 技术 和 无 线 网 络 通信 等 技术 的 发 展 ,促进 了 低 功 耗 多 种 类 传感器 的 快 
速 发 展 ,使 其 在 微小 体积 内 能 够 实现 信息 收集 、 数 据 计 算 和 无 线 网 络 传 输 等 多 种 功能 。 无 线 
传感器 网 络 (Wireless Sensor Networks) 就 是 由 大 量 部 署 在 监测 区 域内 的 廉价 微型 传感器 
节点 组 成 的 ,通过 无 线 网 络 传输 方式 形成 的 一 个 多 跳 的 自 组 织 、 自 适应 的 智能 网 络 系统 ,其 
功能 是 合作 地 感知 ,收集 并 处 理 网 络 覆 盖 区 域 中 各 类 对 象 (如 温度 ,湿度 .气压 等 ) 的 信息 ,再 
发 送 给 管理 者 。 因 此 ,组 成 一 个 传感器 网 络 的 3 个 主要 要 素 是 传感器 节点 .感知 对 象 和 管理 
者 。 如 果 说 因特网 构成 了 逻辑 上 的 信息 世界 ,改变 了 人 与 人 之 间 的 沟通 方式 ,那么 ,无 线 传 
感 器 网 络 就 是 将 客观 上 的 物理 世界 与 逻辑 上 的 信息 世界 融合 在 一 起 ,改变 人 类 与 自然 界 的 
交互 方式 。 人 们 可 以 通过 无 线 传感器 网 络 直接 感知 物理 世界 中 各 类 对 象 信息 ,从 而 极 大 地 
扩展 现 有 网 络 的 功能 和 人 类 认识 物理 世界 的 能 力 。 美 国 商业 周刊 和 MIT 技术 评论 在 预测 
未 来 技术 发 展 的 报告 中 ,分 别 将 无 线 传感器 网 络 列 为 21 世纪 最 有 影响 力 的 21 项 技术 和 改 
变 世 界 的 十 大 技术 之 一 忠 。 研 究 结果 中 表明 ,无 线 传感器 网 络 具 有 十 分 广阔 的 应 用 前 景 ， 
在 工农 业 ,城市 管理 .生物 医疗 .环境 监测 .军事 等 众多 领域 都 有 实际 与 潜在 的 实用 价值 。 

无 线 传感器 网 络 经 历 了 一 个 长 期 的 发 展 过 程 。 在 20 世纪 70 年 代 , 出 现 的 第 一 代 传 感 
器 网 络 主要 利用 点 对 点 传输 技术 以 及 专门 的 控制 器 将 传统 的 传感器 连接 起 来 ,从 而 形成 了 
无 线 传感器 网 络 的 委 形 。 随 后 .电子 .计算 机 等 学 科 的 不 断 发 展 和 进步 ,使 传感器 网 络 也 有 具 
备 了 获取 多 种 对 象 信息 的 综合 处 理 能 力 ,并 采用 串 /并 接口 与 传 感 控制 器 相连 ,构成 了 具有 
信息 收集 和 综合 处 理 能 力 的 第 二 代 传 感 器 网 络 。 第 三 代 传 感 器 网 络 形成 于 20 世纪 90 年 代 
后 期 和 21 世纪 初 ,开始 采用 能 够 智能 获取 多 种 对 象 信息 信号 的 传感器 ,通过 现场 总 线 连接 
传 感 控制 器 ,形成 局 部 智能 化 传感器 网 络 。 第 四 代 传 感 器 网 络 是 目前 科研 工作 者 的 研究 热 
点 之 一 ,该 网 络 采用 大 量具 有 多 功能 .多 对 象 信号 获取 能 力 的 传感器 ,尤其 重要 的 变化 是 传 
感 器 之 间 采 用 可 靠 的 无 线 网 络 传输 协议 进行 连接 ,从 而 形成 高 效 、 健 壮 的 无 线 传感器 网 络 ， 
这 是 传感器 网 络 发 展 的 一 个 巨大 飞跃 中。 这 将 使 传感器 网 络 进一步 发 展 ,应 用 范围 得 到 极 
大 的 扩展 。 
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从 科研 的 角度 来 看 ,无 线 传感器 网 络 的 研究 起 始 于 20 世纪 90 年 代 末 期 。 自 1999 年 将 
中 间 件 (Middleware) 技 术 引 入 无 线 传感器 网 络 中 之 后 ,就 有 很 多 科研 院 所 开始 从 不 同 的 侧 
面 进行 研究 。 那 时 ,大 多 数 开 展 的 基于 无 线 传感器 网 络 特性 的 中 间 件 研究 和 开发 工作 都 主 
要 集中 在 如 何 延 长 传感器 网 络 的 生命 期 以 及 如 何 充 分 提高 传感器 网 络 的 有 限 资源 利用 等 方 
面 。 在 美国 , 康 奈 尔 大 学 、 加 州 大 学 伯克利 分 校 等 是 较 早 开始 无 线 传感器 网 络 基础 理论 和 关 
键 技术 研究 的 高 校 。 此 后 ,大 家 都 认识 到 无 线 传感器 网 络 具 有 巨大 的 实际 应 用 价值 ,世界 许 
多 国家 的 军事 部 门 、 工 业界 和 学 术 界 都 对 这 种 网 络 表 现 出 极 大 的 关注 。 美 国 自然 科学 基金 
委员 会 (US National Science Foundation) 于 2003 年 制订 了 无 线 传感器 网 络 的 研究 计划 ,大 
力 支持 无 线 传感器 网 络 基础 理论 和 关键 技术 的 研究 。 由 于 无 线 传感器 网 络 潜在 的 军事 用 
途 , 美 国 国防 部 (US Department of Defense) 对 此 也 高 度 重 视 ,把 无 线 传感器 网 络 作为 一 个 
重要 的 研究 领域 ,设立 了 一 系列 的 项 目 从 事 军事 传感器 网 络 的 研究 ; 美国 英特尔 (Intel) 公 
司 .微软 (Microsoft) 公 司 等 信息 业 巨 头 也 开始 了 无 线 传感器 网 络 方面 的 研究 工作 ; 其 他 如 
意大利 、 俄 罗斯 法国、 日本、 英国 、 德 国 等 科技 发 达 国 家 也 对 无 线 传感器 网 络 表现 出 了 极 大 
的 兴趣 ,纷纷 展开 了 相关 的 科学 研究 工作 中 。 

我 国 的 中 国 科 学 院 上 海 微 系 统 研 究 所 、 计 算 所、 软件 研究 所 、 沈 阳 自 动 化 所 .电子 所 和 合 
肥 智 能 技术 研究 所 等 科研 机 构 ,清华 大 学 .北京 大 学 .哈尔滨 工业 大 学 ` 西 北 工 业 大 学 .北京 
邮电 大 学 南京 邮电 大 学 、 国 防 科技 大 学 等 高 等 院 校 在 国内 较 早 开展 了 传感器 网 络 的 研究 ， 
之 后 有 更 多 的 科研 院 所 加 入 到 无 线 传感器 网 络 的 基础 研究 和 开发 工作 中 来 。 

通常 ,典型 的 无 线 传感器 网 络 包 括 传感器 节点 (Sensor Node) .汇聚 节点 (Sink Node) 和 
RSMO) 。 大 量 的 传感器 节点 以 随机 撒播 的 方式 部 署 在 监测 区 域内 部 或 附近 ,能 够 通过 
自 组 织 的 方式 互联 成 网 络 。 各 类 传感器 节点 监测 到 的 数据 信息 沿 着 其 他 传感器 节点 (如 簇 
头 ) 逐 跳 地 进行 传输 ,并 在 传输 过 程 中 不 同 节点 的 监测 数据 信息 可 能 被 多 个 节点 进行 处 理 ， 
再 经 过 多 跳 后 传递 到 汇聚 节点 ,最 后 通过 互联 网 传输 到 管理 节点 。 管 理 者 可 通过 管理 节点 
对 传感器 网 络 进行 管理 和 配置 ,收集 监测 数据 和 发 布 监测 信息 等 任务 ]。 

但 由 于 无 线 传感器 网 络 感知 ,收集 和 传输 数据 的 性 能 受到 环境 和 节点 自身 特点 的 约束 ， 
在 实际 应 用 中 存在 诸多 不 足 之 处 ,主要 体现 在 以 下 几 个 方面 。 

1. 电源 能 量 有 限 

传感器 节点 体积 微小 ,通常 携带 能 量 十 分 有 限 的 电池 5 。 这 些 能 量 主要 被 传感器 模 
块 . 处 理 器 模块 和 无 线 通信 模块 等 消耗 。 随 着 集成 电路 工艺 的 发 展 ,传感器 和 处 理 器 模块 的 
功率 消耗 将 会 变 得 越 来 越 低 , 绝 大 部 分 能 量 消 耗 在 无 线 通信 模块 上 。 其 中 ,无 线 通 信 模 块 具 
有 接收 、 发 送 、 睡 眠 .空闲 4 种 状态 。 空 闲 状态 意味 着 无 线 通信 模块 一 直 在 监听 无 线 信 道 的 
状况 ,检查 是 否 有 数据 信息 发 送 过 来 ,而 睡眠 状态 则 意味 着 关闭 无 线 通 信 模 块 。 相 比较 而 
TÉ ,无 线 通信 模块 在 数据 发 送 时 能 量 消耗 最 大 ,空闲 时 少 于 发 送 状态 的 能 量 消耗 ,而 处 于 睡 
眠 状态 时 能 量 消耗 最 少 "] 。 由 于 一 个 无 线 传 感 器 网 络 中 的 传感器 节点 个 数 多 、 分 布 区 域 广 ， 
而 且 部 署 环境 复杂 ,有 些 部 署 区 域 甚至 人 员 都 不 能 到 达 , 所 以 通过 更 换 电 池 的 方式 来 补充 能 
源 往往 不 现实 。 这 就 对 科研 工作 者 提出 了 无 线 传 感 器 网 络 多 方面 节能 的 需求 。 

2. 通信 能 力 有 限 

传感器 节点 能 量 有 限 的 现状 决定 了 它 有 限 的 通信 能 力 。 无 线 网 络 通信 的 能 耗 与 通信 距 
离 的 关系 密切 , 随 着 通信 距离 的 增加 ,能 量 消耗 将 成 倍增 加 。 考 虑 到 传感器 节点 网 络 覆盖 区 
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域 大 的 特点 ,无 线 传感器 网 络 通常 采用 多 跳 路 由 传输 机 制 。 这 就 要 求 在 满足 无 线 传感器 网 
络 通信 连通 度 的 前 提 下 应 尽量 减少 单 跳 通信 距离 。 另 外 ,由 于 节点 能 量 的 不 断 变化 , 受 障碍 
物 等 自然 环境 的 影响 ,无 线 网 络 通信 性 能 会 经 常 变 化 ,导致 通信 中 断 上 。 这 就 对 科研 工作 者 
提出 了 多 方面 减少 数据 通信 的 需求 。 

3. 计算 和 存储 能 力 有 限 

作为 一 种 微型 嵌入 式 设备 ,传感器 节点 价格 低 、 功 耗 小 ,这 些 限制 必然 导致 其 配备 的 微 
处 理 器 能 力 比 较 弱 ,存储 器 容量 比较 小 。 而 传感器 节点 需要 完成 监测 数据 的 采集 和 转换 、 数 
据 的 管理 和 处 理应 答 汇聚 节点 的 任务 请 求 和 节点 控制 等 多 种 工作 局 。 为 了 完成 各 种 任务 ， 
这 就 对 科研 工作 者 提出 了 多 方面 减少 数据 计算 和 存储 的 需求 。 
因此 ,目前 针对 无 线 传感器 网 络 的 大 量 科 研 工 作 都 是 为 了 解决 上 述 的 不 足 进 行 展开 。 

实际 上 ,无 线 传感器 网 络 作 为 任务 型 的 网 络 , 不 仅 要 进行 数据 的 传输 ,而 且 要 进行 数据 
采集 和 了 融合、 任务 的 协同 控制 等 。 如 何 保证 任务 执行 的 机 密 性 .数据 产生 的 可 靠 性 、. 数 据 融 
合 的 高 效 性 以 及 数据 传输 的 安全 性 ,就 成 为 无 线 传 感 器 网 络 安全 需要 全 面 考虑 的 内 容 。 可 
以 说 ,安全 问题 是 制约 无 线 传感器 网 络 发 展 的 一 个 非常 关键 因素 5 。 

博弈 论 是 研究 两 个 或 多 个 参与 者 谋略 和 决策 问题 的 理论 "9 ,在 我 国 古代 故事 如 王 戎 辩 
李 、 孙 腔 赛 马 、 破 釜 沉 舟 、 空 城 计 等 中 就 充满 了 博弈 论 的 思想 。 博 弈 论 分 析 的 目的 是 预测 博 
弈 的 结果 。 不 言 而 喻 ,每 一 个 参与 者 要 选择 的 策略 必须 是 针对 其 他 参与 者 选择 战略 的 最 优 
反应 ,每 一 个 参与 者 都 希望 尽 可 能 提高 自己 的 利益 所 得 59 。 因 此 ,博弈 论 研 究 强调 决策 主 
体 行为 发 生 时 的 直接 相互 作用 。 例 如 ,经 常 遇 到 的 性 别 战 博弈 ,这 是 一 个 两 人 决策 问题 , 丈 
夫 的 决策 依赖 于 妻子 的 决策 ; 反 过 来 ,妻子 的 决策 也 依赖 于 丈夫 的 决策 。 

1944 年 ,John Von Neumann 和 Oskar Morgenstern 的 巨著 Theory of Games and 
Economic Behavior 的 出 版 为 博弈 论 在 经 济 学 中 系统 的 应 用 奠定 了 理论 基础 。1994 年 、 
1996 年 .2001 年 .2005 年 和 2007 年 共 5 次 诺 贝尔 经 济 学 奖 被 分 别 授予 了 经 济 博弈 论 方向 
的 学 者 。 对 一 门 学 科 给 予 如 此 高 的 褒奖 ,表明 了 博弈 论 的 强大 威力 。 正 是 国际 经 济 学 界 对 
博弈 论 的 这 种 肯定 ,推动 了 国内 外 博弈 论 研究 及 应 用 的 发 展 ,使 得 目前 的 博弈 论 已 发 展 成 一 
个 内 容 丰 富 且 完善 的 理论 体系 。 更 重要 的 是 ,博弈 论 的 应 用 已 逐步 扩展 到 政治 学 .道德 哲 
学 ,社会 学 .生物 学 和 计算 机 科学 等 领域 。 

博弈 论 的 应 用 需要 根据 不 同 的 场合 选择 不 同 的 博弈 类 型 ,本 书 主要 利用 非 合 作 博 弈 、 演 
化 博弈 联盟 博弈 研究 无 线 传感器 网 络 安全 中 的 若干 关键 问题 。 非 合作 博弈 的 核心 问题 是 
参与 者 的 策略 选择 , 即 在 参与 人 是 完全 理性 的 基础 上 研究 参与 者 在 利益 相互 影响 的 情况 下 
选择 最 有 利于 自己 的 策略 "7 。 演 化 博弈 建立 在 参与 人 是 有 限 理性 的 基础 上 ,以 参与 人 种 群 
为 研究 对 象 ,认为 参与 人 的 行为 是 一 个 动态 调整 过 程 59 。 联 盟 博 弈 强调 在 联盟 的 内 部 建立 
信息 的 互通 ,以 及 具有 约束 力 且 可 执行 的 契约 。 因 此 , 非 合作 博弈 适用 于 参与 人 存在 竞争 且 
需要 探寻 只 对 自身 有 利 策略 的 场合 ,演化 博弈 适用 于 需要 对 参与 人 行为 动态 演化 进行 研究 
的 场合 ,而 联盟 博弈 适用 于 联盟 是 否 可 获得 收益 ,以 及 获得 的 净 收 益 如 何在 联盟 内 部 公平 分 
配 的 问题 。 

近 些 年 来 ,在 无 线 网 络 领域 ,包括 Ad Hoc Ift, Mesh 网 络 .无 线 传感器 网 络 等 ,博弈 论 
的 应 用 呈 明 显 上 升 的 趋势 。 研 究 涉及 的 内 容 包 括 无 线 传 感 器 网 络 媒体 接 人 控制 .无 线 传 感 
器 网 络 安全 路 由 、 无 线 传感器 网 络 MAC 协议 竞争 接 入 控制 . 认 知 MIMO 系统 功率 分 配 、 毫 
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微微 蜂窝 混合 接 人 控制 干扰 管理 ,高 速 移动 环境 下 快速 动态 无 线 资源 优化 、 无 线 自 组 织 网 络 
用 户 合作 激励 . 认 知 无 线 网 络 动态 频谱 拍卖 . 认 知 无 线 网 络 资源 分 配 、 智 能 绿色 无 线 电 资 源 
分 配 、 认 知 无 线 电动 态 频谱 分 配 等 。 

国内 外 一 些 著名 研究 机 构 和 学 术 团 队 都 在 致力 于 博弈 论 和 无 线 网 络 相 结合 的 研究 ,如 
中 国 科学 院 软 件 研究 所 信息 安全 国家 重点 实验 室 、 上 海 交 通 大 学 系统 控制 与 信息 处 理 教育 
部 重点 实验 室 、 东 北大 学 计算 机 软件 与 理论 研究 所 ,华东 交通 大 学 智能 传感器 网 络 中 心 和 网 
络 与 信息 安全 中 心 .武汉 理工 大 学 高 性 能 网 络 研 究 中 心 、 四 川 大 学 计算 机 网 络 与 安全 研究 
所 ,西安 电 子 科技 大 学 智能 感知 与 图 像 理解 实验 室 .哈尔滨 工业 大 学 通信 技术 研究 所 、 美 国 
佐治 亚 理工 学 院 宽 带 无 线 网 络 实验 室 、 美 国 马里 兰 大 学 K. J. Ray Liu 团队 美国 加 州 大 学 
Mihaela van der Schaar 团队 .美国 伊利 诺 大 学 Tamer Basar 团队 、 美 国 范 德 堡 大 学 Myrna 
Wooders 团队 、 加 拿 大 曼 尼 托 巴 大 学 Ekram Hossain 团队 、 和 希腊 西 马 其 顿 大 学 Athanasios 
V. Vasilakos 团队 等 。 与 此 同时 ,从 近 几 年 的 网 络 通信 和 领域 顶级 国际 会 议 SIGCOMM、 
INFOCOM 和 MobiHoc 上 发 表 的 论文 可 见 ,每 年 都 有 相关 文献 发 表 。 通 信和 领域 国际 顶级 期 
TI IEEE Journal on Selected Areas in Communications 在 2011 年 的 征稿 中 共有 两 次 主要 
关注 博弈 论 和 无 线 网 络 相 结合 的 主题 ,分 别 是 Game Theory in Wireless Communications 
和 Economics of Communication Networks and Systems. 

事实 上 ,博弈 论 为 无 线 传 感 器 网 络 安全 的 研究 提供 了 新 颖 的 思路 。 自 组 织 . 无 控制 中 
心 \ 动 态 拓扑 ,资源 有 限 是 无 线 传感器 网 络 的 主要 特点 ,这 些 特 点 决定 了 每 一 个 节点 在 通信 
时 会 有 自己 的 决策 。 那 么 , 当 节点 需要 做 出 决策 时 , 哪 一 种 是 最 优 的 ? 节点 也 许 会 表现 自私 
而 寻求 只 对 自身 有 益 的 决策 ,甚至 会 表现 恶意 而 选择 破坏 网 络 性 能 的 决策 。 这 些 情 况 利 用 
非 合 作 博 弈 能 找到 很 好 的 答案 。 当 然 , 这 里 的 非 合 作 博 弈 包括 了 多 种 形式 ,如 重复 博弈 、 信 
号 博弈 .声明 博弈 .随机 博弈 等 。 另 外 ,还 可 以 选择 演化 博弈 对 节点 行为 的 动态 演化 进行 研 
究 。 因 此 ,博弈 论 方法 为 无 线 传感器 网 络 安全 中 多 方面 关键 问题 研究 提供 了 可 行 的 新 思路 
和 新 技术 ,这 是 一 个 重要 的 充满 前 景 的 研究 方向 。 


1.2 本 书 组 织 结构 


本 书 总 共 包含 10 章 ,分 别 是 “第 1 章 绪论 “第 2 章 博弈 论 概述 ”第 3 3 基于 信号 
博弈 的 无 线 传感器 网 络 人 侵 检测 最 优 策 略 研 究 " "第 4 章 基于 演化 博弈 的 无 线 传感器 网 络 
节点 信任 演化 动力 学 研究 "“ 第 5 章 基于 微分 博弈 的 无 线 传感器 网 络 恶意 程序 传播 机 制 研 
究 ”“ 第 6 章 基于 随机 博弈 的 受 攻击 无 线 传感器 网 络 可 生存 性 评估 研究 “第 7 章 无 线 传 
感 器 网 络 受 攻击 协调 器 节点 的 防御 响应 博弈 机 制 研究 "第 8 章 面向 传 感 云 数据 外 包 中 心 
的 信任 演化 机 制 研究 "第 9 章 基于 随机 演化 联盟 博弈 的 虚拟 传 感 云 服务 安全 机 制 研究 ”、 
“第 10 章 基于 演化 博弈 的 传感器 节点 保密 率 自 适应 调节 研究 ”。 

第 1 章 由 无 线 传感器 网 络 的 研究 背景 和 无 线 传感器 网 络 安全 的 需求 ,说 明博 弈 论 与 无 
线 传感器 网 络 安全 之 间 的 关系 。 

第 2 章 概要 介绍 了 博弈 论 的 基本 概念 .博弈 类 型 等 。 通 过 对 完全 信息 静态 博弈 .完全 且 
完美 信息 动态 博弈 .重复 博弈 ,不 完全 信息 静态 博弈 .完全 但 不 完美 信息 动态 博弈 ,不 完全 信 
息 动 态 博弈 、 合 作 博 弈 、 信 号 博弈 、 演 化 博弈 、 微 分 博弈 .随机 博弈 .联盟 博弈 等 博弈 类 型 的 说 
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明和 分 析 , 初 步 了 解 博弈 论 ,为 后 续 章 节 博 弈 论 的 应 用 和 相关 工作 的 比较 提供 知识 准备 。 

第 3 章 应 用 信和 号 博弈 描述 并 分 析 恶 意 传感器 节点 和 无 线 传 感 器 网 络 人 侵 检 测 系统 之 间 
的 交互 过 程 。 在 每 个 独立 的 阶段 ,建立 “阶段 入侵 检测 博弈 ”(Stage Intrusion Detection 
Game) 模 型 ,探索 该 博弈 模型 纳什 均衡 存在 的 条 件 , 并 将 分 别 得 到 纯 策 略 贝 叶 斯 均衡 (Pure- 
strategy Beyasian Equilibrium) 和 混合 策略 贝 叶 斯 均衡 (Mixed-strategy Beyasian Equilibrium) . 
随 着 博弈 的 进行 ,通过 构建 “多 阶段 动态 人 侵 检 测 博弈 "(Multi-stage Dynamic Intrusion 
Detection Game) 来 反映 恶意 传感器 节点 和 和 人 侵 检 测 代 理 之 间 的 交互 活动 。 另 外 ,在 得 到 
“多 阶段 动态 人 侵 检 测 博弈 ”的 完美 贝 叶 斯 均衡 的 基础 上 ,设计 入 侵 检 测 运 行 机 制 和 相应 的 
算法 。 

第 4 章 利 用 演化 博弈 研究 传感器 节点 间 的 信任 决策 过 程 , 从 而 揭示 无 线 传感器 网 络 各 
传感器 节点 间 的 信任 演化 原理 。 根 据 各 个 传感器 节点 能 选择 不 同 策略 的 实际 情况 建立 “无 
线 传感器 网 络 信任 博弈 模型 ,并且 为 了 研究 激励 机 制 对 传感器 节点 选择 动作 "信任 ”( 即 可 
以 合作 通信 ) 的 影响 ,在 “无 线 传感器 网 络 信任 博弈 ?模型 中 整合 激励 机 制 参数 。 为 了 说 明 
“无 线 传感器 网 络 信任 博弈 ”模型 的 稳定 性 ,通过 复制 动态 动力 学 方程 探索 “无 线 传感器 网 络 
信任 博弈 ”的 演化 稳定 策略 。 

第 5 章 扩展 经 典 流行 病理 论 使 之 适合 无 线 传 感 器 网 络 恶意 程序 传播 现状 ,并 引入 不 同 
的 参数 来 揭示 无 线 传 感 器 网 络 恶意 程序 传播 过 程 。 然 后 将 恶意 程序 在 无 线 传感器 网 络 传播 
时 “无 线 传感器 网 络 系 统 ”" 和 “恶意 程序 ”之 间 的 决策 问题 看 作 优 化 控制 问题 ,并 利用 微分 博 
弈 为 “无线 传 感 器 网 络 系统 ”得 到 最 优 控制 策略 ,这 种 策略 将 在 考虑 "恶意 程序 "最 大 化 破坏 
无 线 传感器 网 络 的 前 提 下 ,最 小 化 “无 线 传感器 网 络 系统 "和 “恶意 程序 ”产生 的 成 本 。 

第 6 章 从 可 靠 度 和 可 用 度 两 方面 评估 受 攻击 无 线 传感器 网 络 的 可 生存 性 属性 。 首 先 将 
选择 研究 的 聚 簇 无 线 传感器 网 络 看 作 一 个 串 -并 (Serial-parallel) 系统 ,这 样 就 可 以 应 用 经 典 
可 靠 性 理论 中 已 有 的 结论 。 因 为 恶意 攻击 者 总 是 故意 发 动 恶 意 攻击 行为 ,通过 随机 博弈 给 
出 这 些 理性 恶意 攻击 者 采取 恶意 攻击 的 期 望 概率 ,再 利用 连续 时 间 马 尔 可 夫 链 对 受 攻击 传 
感 器 节点 生命 期 的 所 有 状态 建立 模型 ,就 可 得 到 计算 受 攻击 传感器 节点 平均 无 故障 时 间 、 可 
靠 度 、 生 存 期 (Survival Lifetime) 和 稳 态 可 用 度 的 计算 公式 ,实现 受 攻击 无 线 传感器 网 络 的 
可 生存 性 评估 。 

第 7 章 针 对 受 攻击 的 ZigBee 无 线 传感器 网 络 ,为 了 最 小 化 从 源 到 目的 节点 数据 包 分 发 
的 平均 跳 数 并 且 最 大 化 延长 网 络 生命 期 ,提出 了 基于 博弈 论 和 模糊 逻辑 的 协调 器 节点 选择 
算法 。 协 调 器 节点 选择 算法 不 仅 要 考虑 数据 包 分 发 延迟 、 网 络 生命 期 ,而 且 还 要 考虑 网 络 攻 
击 防御 策略 ,因此 在 提出 的 算法 中 ,首先 使 用 随机 博弈 对 攻击 进行 动态 响应 ,然后 通过 模糊 
逻辑 选择 服务 质量 较 好 的 节点 作为 协调 器 节点 ,从 而 提高 网 络 的 服务 质量 和 安全 性 。 

第 8 章 曾 述 了 基于 证 书 认证 的 信任 演化 博弈 模型 及 其 系统 框架 。 在 “证 书 认 证 信任 演 
化 博弈 ?交互 过 程 中 ,通过 认证 代理 补偿 一 定 的 信任 度 来 激励 传 感 云 用 户 披露 更 多 的 证 书 ， 
以 提高 其 信任 度 。 传 感 云 用 户 和 认证 协调 器 通过 平衡 证 书 泄露 和 信任 补偿 之 间 的 关系 来 决 
定 用 户 是 否 能 够 执行 外 包 数 据 访 问 操作 ,认证 代理 根据 用 户 披 露 的 证 书 决定 信任 度 的 分 配 ， 
并 使 用 多 轮 迭 代 博 弈 效用 分 析 法 分 析 了 “证 书 认 证 信任 演化 博弈 "的 稳定 性 。 与 传统 的 基于 
属性 和 本 体 的 访问 控制 系统 相 比 ,基于 证 书 认 证 的 信任 演化 博弈 模型 及 其 系统 框架 提高 了 
安全 效用 和 认证 性 能 。 


5 


| 博 变 论 与 无 线 传感器 网 络 安全 


第 9 章 提 出 了 基于 随机 演化 联盟 博弈 的 受 攻击 虚拟 传 感 云 服务 系统 安全 机 制 。 在 随机 
演化 联盟 博弈 的 每 一 阶段 ,虚拟 传 感 云 服务 提供 者 能 够 观察 到 服务 组 合 节点 的 虚拟 容量 和 
攻击 者 的 策略 ,根据 这 些 观 察 ,决定 需 分 配 的 虚拟 容量 值 来 提高 虚拟 传 感 云 服务 组 合 的 服务 
质量 。 虚 拟 传 感 云 服务 提供 者 通过 minimax-Q 和 演化 联盟 形成 算法 , 自 适应 地 变化 其 防御 
策略 并 形成 可 靠 安 全 的 服务 组 合 联盟 ,从 而 对 攻击 者 的 攻击 进行 动态 防御 来 提高 虚拟 传 感 
云 服务 的 安全 性 和 可 靠 性 。 与 随机 博弈 和 演化 联盟 博弈 相 比 ,随机 演化 联盟 博弈 框架 在 虚 
拟 传 感 云 服务 动态 组 合 过 程 中 获得 了 较 好 的 性 能 。 

第 10 章 以 最 大 化 网 络 效用 为 目标 ,利用 演化 博弈 论 中 的 复制 动力 学 方程 实现 传感器 节 
点 保密 率 的 自 适应 调节 机 制 。 通 过 扩展 经 典 保密 率 计 算 公 式 , 首 先 建 立 了 能 适应 聚 秘 无 线 
传感器 网 络 环境 中 簇 成员 传感器 节点 和 艇 头 传感器 节点 之 间 的 保密 率 计 算 公 式 。 然 后 , 通 
过 建立 一 种 非 合作 传感器 节点 保密 率 博弈 模型 ,解决 了 传感器 节点 最 大 化 各 自 保密 率 时 影 
响 整 个 网 络 通信 的 问题 。 最 后 ,利用 演化 博弈 论 中 的 复制 动力 学 方程 ,给 出 传感器 节点 如 何 
动态 地 选择 各 自 的 发 射 功率 来 最 大 化 其 保密 率 适应 度 的 演化 过 程 ,实现 传感器 节点 保密 率 
自 适 应 调节 机 制 。 


第 2 


A 


本 章 给 出 博弈 论 的 基本 概念 ,介绍 适用 于 不 同 应 用 场合 的 博弈 类 型 ,包括 完全 信息 静态 
博弈 .完全 且 完 美 信息 动态 博弈 .重复 博弈 ,不 完全 信息 静态 博弈 .完全 但 不 完美 信息 动态 博 
弈 ,不 完全 信息 动态 博弈 、 合 作 博 弈 、 信 号 博弈 .演化 博弈 ,微分 博弈 、 随 机 博弈 .联盟 博弈 等 ， 
为 后 续 章节 博弈 论 的 应 用 和 相关 工作 的 比较 提供 知识 准备 。 


2.1 博弈 论 基本 概念 


博弈 论 (Game Theory) 是 现代 数学 的 一 个 新 分 支 ,也 是 运筹 学 的 重要 构成 内 容 之 一 。 
博弈 论 主要 研究 具有 相互 依赖 行为 的 参与 者 的 策略 选择 。 现 在 通常 所 说 的 博弈 论 一 般 是 指 
非 合作 博弈 理论 ,认为 参与 者 是 理性 的 , 即 参与 者 之 间 都 会 在 一 定 的 约束 条 件 下 最 大 化 自身 
的 利益 ,同时 参与 者 之 间 在 交互 时 利益 有 冲突 ,行为 相互 有 影响 ,而 且 不 同 参 与 者 掌握 的 信 
息 常常 是 不 对 称 的 。 在 这 种 情况 下 ,博弈 论 研究 参与 者 的 行为 ,交互 时 的 策略 和 策略 的 均衡 
Vi gi 7 。 当 然 ,现代 博弈 论 还 包括 合作 博弈 。 合 作 博 弈 强调 的 是 团体 理性 ,集体 的 效率 、 
公正 和 公平 c9 。 

博弈 论 作为 研究 多 人 谋略 和 策略 问题 的 理论 。 首 先 , 一 个 博弈 问题 必须 至 少 有 两 个 参 
与 博弈 的 参与 者 ,在 博弈 过 程 中 他 们 都 有 各 自 的 切身 利益 。 由 于 各 自 利益 的 驱动 ,他 们 在 做 
出 自己 各 自 的 决策 时 ,总 想 使 用 最 优 策略 ; 其 次 ,博弈 中 的 各 个 参与 者 之 间 总 不 可 避免 地 存 
在 着 竞争 。 竞 争 贯穿 了 整个 博弈 的 全 过 程 , 同 时 这 种 竞争 又 将 博弈 的 参与 者 紧 紧 地 联系 在 
一 起 ,相互 较量 ,相互 依存 ; 再 次 ,既然 参与 者 之 间 要 进行 较量 ,那么 每 一 个 博弈 参与 者 都 会 
尽量 掌握 对 手 的 特点 及 其 已 经 采取 或 可 能 采取 行动 的 相关 知识 和 信息 ; 最 后 ,就 是 博弈 参 
与 者 最 为 关心 的 博弈 结 果 "”””]。 博 弈 结果 随 不 同 参 与 者 采取 策略 的 不 同 而 不 同 ,通常 用 
支付 [Payoff) 来 描述 博弈 结果 。 因 此 ,博弈 论 就 是 从 理论 上 对 博弈 参与 者 之 间 的 行为 和 交 
互 过 程 进行 研究 和 分 析 ,为 博弈 参与 者 预测 出 一 个 理想 的 结局 。 这 种 预测 结局 的 正确 性 主 
要 体现 在 博弈 参与 者 都 能 自愿 选择 博弈 理论 为 其 推导 出 的 策略 ,并 且 没 有 博弈 参与 者 愿意 
独自 偏离 其 依照 博弈 理论 已 选 定 的 策略 。 所 以 ,每 个 博弈 参与 者 所 选 策略 是 针对 其 他 参与 


者 所 选 策略 的 最 优 反应 。 
下 面 介绍 博弈 论 中 的 一 些 基 本 概念 。 
1) 参与 者 


参与 者 (Player) 是 指 一 个 博弈 中 独立 决策 .独立 承担 后 果 的 决策 主体 ,通常 又 称 为 局 中 
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人 或 参与 人 。 参 与 者 参加 博弈 的 目的 是 通过 各 自 合理 地 选择 相应 的 行动 ,以 便 最 大 化 自己 
的 支付 (或 效用 ) 水 平 。 参 与 者 可 以 是 个 人 ,也 可 以 是 具有 智能 管理 能 力 的 设备 (如 无 线 传 感 
器 网 络 中 的 传感器 节点 ) .团队 ,企业 、 国 家 .其 至 是 国家 组 成 的 集团 。 为 了 研究 和 分 析 博 弈 
问题 的 需要 ,通常 还 会 引入 一 个 虚拟 参与 者 一 一 “自然 "(Nature)。 这 里 的 “自然 " 指 的 是 独 
立 于 博弈 参与 者 的 外 生 事件 。 “自然” 选择 的 是 外 生 事件 的 各 种 可 能 现象 ,并 且 用 概率 分 布 
来 描述 “自然 "的 选择 机 理 57 。 

2) 信息 

信息 (Information) 是 指 参 与 者 在 博弈 过 程 中 能 了 解 到 和 观察 到 的 知识 ,这 些 知 识 包括 
“自然 ”的 选择 、 其 他 参与 者 的 特征 和 行动 等 "”。 信 息 是 整个 博弈 过 程 中 非常 重要 的 一 个 变 
量 ,一 旦 信息 结构 变化 了 ,博弈 双方 的 所 有 结果 都 有 可 能 发 生变 化 。 

3) 共同 知识 

共同 知识 (Common Knowledge) 是 指 “ 所 有 参与 者 知道 ,所 有 参与 者 知道 所 有 参与 者 知 
道 , 所 有 参与 者 知道 所 有 参与 者 知道 所 有 参与 者 知道 ……" 的 知识 。 

4) 完全 信息 

完全 信息 (Complete Information) 是 指 所 有 参与 者 各 自选 择 的 策略 的 不 同 组 合 所 决定 
的 各 参与 者 的 收益 对 所 有 参与 者 来 说 是 共同 知识 "7 。 简 单 .通俗 地 说 ,完全 信息 是 指 每 一 
个 参与 者 完全 了 解 自己 以 及 其 他 参与 者 的 策略 ,完全 了 解 各 参与 者 选择 的 策略 组 合 产生 的 
效用 。 

5) 完美 信息 

完美 信息 (Perfect Information) 是 指 所 有 参与 者 在 选择 各 自 策略 时 ,其 他 参与 者 的 博弈 
进程 对 所 有 参与 者 而 言 是 共同 知识 .也 就 是 说 ,拥有 完美 信息 就 是 完全 了 解 其 他 参与 者 的 行 
动 ; 相反 ,不 完美 信息 意味 着 参与 者 在 博弈 进程 信息 的 掌握 程度 上 具有 不 对 称 性 。 

6) 静态 

如 果 在 博弈 过 程 中 各 参与 者 同时 选择 各 自 的 策略 , 则 称 这 类 博弈 是 静态 (Static) 的 。 这 
里 所 说 的 “同时 ”具有 双 层 含义 : 一 种 含义 就 是 “同时 ”的 字面 解释 ,也 就 是 不 同 的 参与 者 在 
同一 时 间 一 起 行动 ; 另 一 种 含义 是 不 同 的 参与 者 行动 虽然 有 先后 ,但 后 行动 者 并 不 知道 先 
行动 者 采取 了 什么 样 的 具体 行动 2 。 

7) 动态 

动态 (Dynamic) 是 指 不 同 参与 者 的 行动 有 先后 顺序 ,并 且 后 行动 者 能 够 观察 到 先行 动 
者 所 选择 的 行动 "7 。 

8) 策略 

策略 (Strategy) 是 指 参与 者 可 选择 的 全 部 行为 的 集合 , 即 规定 每 个 参与 者 在 进行 决策 
时 可 以 选择 的 做 法 。 在 一 个 静态 博弈 (Static Game) 中 ,一 个 策略 是 参与 者 的 一 个 给 定 的 可 
能 行动 ; 在 动态 博弈 (Dynamic Game) 中 ,一 个 策略 是 参与 者 在 每 个 决策 点 选择 的 一 个 完整 
计划 , 它 告 诉 参与 者 在 什么 时 候 应 选择 什么 行动 。 

9) 支付 

支付 (Payoff) 是 指 参与 者 在 一 个 特定 的 策略 组 合 中 得 到 或 失去 的 效用 , 它 通常 是 参与 
者 策略 的 函数 ,其 值 可 以 是 正 数 也 可 以 是 负数 。 如 果 结 果 是 随机 的 ,那么 支付 通常 用 概率 来 
加 权 平 均 , 即 期 望 支付 (Expected Payoff)", 
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10) 均衡 

均衡 (Equilibrium) 是 指 所 有 参与 者 的 最 优 策 略 的 组 合 。 需 要 注意 的 是 ,不 同 的 博弈 类 
型 通常 具有 不 同 的 均衡 形态 。 达 到 博弈 均衡 意味 着 相关 量 处 于 稳定 状态 ,这 种 稳定 状态 在 
博弈 过 程 中 是 可 以 预测 的 。 

11) 理性 

如 果 一 个 参与 者 寻求 以 一 种 最 大 化 自己 支付 的 方式 进行 博弈 ,那么 ,这 个 参与 者 就 是 理 
性 (Rationality) 的 25 。 以 参与 者 个 体 利益 最 大 化 为 目标 的 被 称 为 “个 体 理性 ,而 追求 集体 
利益 最 大 化 的 被 称 为 “集体 理性 ”; 有 完美 的 分 析 判 断 能 力 和 不 会 犯 选 择 行为 错误 的 称 为 
“完全 理性 ”, 反 之 称 为 有限 理 性 ”9 。 

12) 纯 策 略 

纯 策略 (Pure-strategy) 是 指 每 个 参与 者 在 博弈 过 程 中 可 以 选择 采用 的 行动 方案 ,每 个 
参与 者 均 有 可 供 其 选择 的 多 种 策略 5 。 

13) 混合 策略 

混合 策略 (Mixed-strategy) 是 指 参与 者 在 纯 策 略 空间 上 的 一 种 概率 分 布 , 表 示 参 与 者 实 
际 博弈 时 根据 这 种 概率 分 布 在 纯 策略 空间 中 随机 选择 行动 方案 并 加 以 实施 7 。 

14) Ail 

如 果 对 任何 策略 组 合 .所 有 参与 者 的 支付 和 为 零 , 则 称 该 博弈 是 零 和 (Zero) 的 7 。 


2.2 博弈 类 型 


2.2.1 完全 信息 静态 博弈 


在 国内 外 学 者 发 表 的 文献 中 ,车 只 说 明 是 基于 博弈 论 方法 ,而 未 说 明 具体 的 博弈 类 型 ， 
那么 这 种 博弈 类 型 实际 上 就 是 零 和 的 完全 信息 静态 博弈 (Complete Information Static 
Game) 。 完 全 信息 静态 博弈 就 是 各 参与 者 同时 决策 , 且 所 有 参与 者 对 各 方 支付 都 了 解 的 博 
弈 。 完 全 信息 静态 博弈 通常 使 用 标准 式 描 述 ,包含 3 个 方面 的 信息 : 四 博弈 参与 者 集合 
加 每 个 参与 者 的 策略 空间 ; 回 每 个 参与 者 的 支付 函数 5] 。 

与 完全 信息 静态 博弈 对 应 的 均衡 就 是 最 常 说 的 纳什 均衡 ("。 纳 什 均衡 实际 上 描述 的 
是 一 种 策略 集 ,在 这 个 策略 集中 ,每 一 个 参与 者 都 确信 ,在 给 定 对 方 策略 的 情况 下 ,他 选择 了 
最 好 的 策略 。 也 就 是 说 ,参与 者 双方 都 认为 自己 现 有 的 策略 是 最 好 的 策略 ,因此 ,在 对 方 不 
改变 策略 的 前 提 下 ,任何 一 方 都 不 会 调整 自己 的 策略 ; 否则 ,率先 改变 策略 的 一 方 将 减少 对 
应 的 效用 值 。 

判断 一 个 结果 是 不 是 纳什 均衡 的 通常 办 法 是 看 参与 者 是 否 可 以 通过 单方 面 的 背离 而 获 
得 更 多 的 效用 。 如 果 还 有 其 他 的 策略 可 以 让 任何 一 个 参与 者 得 到 更 多 的 效用 ,那么 他 一 定 
会 丢弃 现在 的 策略 组 合 ,也 就 是 说 ,现在 的 策略 组 合 是 不 稳定 的 。 实 际 上 ,纳什 均衡 是 完全 
信息 静态 博弈 的 解 , 构 成 纳什 均衡 的 策略 一 定 是 重复 剔除 严格 劣 策略 过 程 中 不 能 被 剔除 的 
策略 ; 也 就 是 说 ,没有 一 种 策略 能 严格 优 于 纳什 均衡 策略 "9 。 

需要 注意 的 是 ,纳什 均衡 包括 纯 策略 纳什 均衡 (Pure-strategy Nash Equilibrium) 和 混 
合 策略 纳什 均衡 (Mixed-strategy Nash Equilibrium) 。 纳 什 在 他 1950 年 的 经 典 论文 中 ,证 
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明了 混合 策略 纳什 均衡 普遍 存在 于 不 同 的 博弈 类 型 中 ,指出 每 一 个 有 限 次 博弈 都 至 少 存在 
一 个 混合 策略 纳什 均衡 "5 。 


2.2.2 完全 且 完 美 信息 动态 博弈 


在 完全 且 完 美 信息 动态 博弈 (Complete and Perfect Information Dynamic Game) 中 ,各 
参与 者 不 是 同时 而 是 先后 选择 策略 ,每 个 参与 者 需要 考虑 如 果 采 取 这 个 策略 ,那么 对 方 将 如 
何 应 对 该 策略 ,同时 还 需要 考虑 当前 采取 的 策略 将 如 何 影响 自己 及 对 手 将 来 如 何 选择 策略 。 
这 一 特点 使 得 完全 且 完 美 信息 动态 博弈 的 表示 常 使 用 扩展 式 博弈 树 描述 。 与 支付 矩阵 表示 
法 相 比 , 扩 展 式 博弈 树 扩展 了 参与 者 的 策略 空间 , 即 某 个 参与 者 在 什么 时 候 行动 .每 次 行动 
可 选择 哪些 策略 以 及 当前 知道 哪些 信息 。 

完全 且 完 美 信息 动态 博弈 中 各 个 参与 者 策略 选择 的 先后 顺序 形成 了 连续 的 博弈 过 程 ， 
其 中 各 参与 者 的 一 次 选择 行为 称 为 一 个 "阶段 *。 如 果 完 全 且 完 美 信息 动态 博弈 的 几 个 参与 
者 同时 选择 策略 ,那么 这 些 参与 者 的 同时 选择 也 构成 一 个 "阶段 *。 一 个 完全 且 完 美 信息 动 
态 博弈 至 少 包含 两 个 "阶段 ,因此 常 把 完全 且 完 美 信息 动态 博弈 也 称 为 "多 阶段 博弈 "59 。 
完全 且 完 美 信息 动态 博弈 也 被 称 为 “ 序 贯 博弈 ”, 这 是 从 各 参与 者 选择 策略 有 时 间 先 后 方面 
进行 考虑 的 。 完 全 且 完 美 信息 动态 博弈 还 被 称 为 “扩展 博弈 ,这 是 因为 完全 且 完 美 信息 动 
态 博弈 常 采 用 扩展 式 博弈 树 来 表示 各 参与 者 的 选择 次 序 和 各 博弈 阶段 。 

一 个 完全 且 完 美 信息 动态 博弈 包含 6 个 方面 的 信息 : 博弈 参与 者 集合 ; @ 参 与 者 的 
行动 顺序 ; @ 每 次 轮 到 某 参 与 者 行动 时 ,可 供 他 选择 的 行动 ; @ 每 次 轮 到 某 参 与 者 行动 时 ， 
他 了 解 到 的 信息 ; @ 各 个 参与 者 选择 不 同 的 行动 组 合 后 对 应 的 支付 ; @ 虚 拟 参与 者 "自然 ” 
可 能 选择 的 概率 分 布 0 。 

与 完全 且 完 美 信息 动态 博弈 相关 的 均衡 是 “ 子 博弈 完美 纳什 均衡 "(Subgame Perfect 
Nash Equilibrium) il" W FIF 5z 3 4) fj" (Trembling Hand Perfect Equilibrium) 5! , “4 Ht 
的 模型 包括 斯 坦克 博 格 (Stackelberg ) B 7907 .讨价还价 (Bargaining ) 模 型 25、 委托 人 一 代 
理 人 模型 5 。 其 中 * 子 博弈 ”由 一 个 完全 且 完 美 信息 动态 博弈 第 一 阶段 后 的 任 一 阶段 开始 
的 后 续 “ 阶 段 博弈 构成, 能够 自 成 一 个 博弈 ,包含 有 初始 信息 集 和 进行 博弈 所 需要 的 全 部 信 
息 D9] 。 类 伏地 ,一 个 “ 子 博弈 ?还 可 以 包含 下 一 级 “ 子 博弈 >。 需 要 注意 的 是 ,完全 且 完 美 信 
息 动态 博弈 本 身 不 是 它 自己 的 一 个 “ 子 博弈 ,这 与 集合 的 性 质 不 同 。 另 外 ,“ 子 博弈 ”不 能 分 
割 初始 信息 集 且 必须 包含 第 一 个 阶段 后 的 所 有 ”阶段 博弈 ”。 要 使 一 个 "策略 对 ?成 为 " 子 博 
弈 完美 纳什 均衡 ”, 必 须要 求 它 首先 是 原 完全 且 完 美 信息 动态 博弈 的 纳什 均衡 ,其 次 在 完全 
且 完 美 信息 动态 博弈 的 所 有 “ 子 博弈 "中 都 构成 纳什 均衡 。 与 纳什 均衡 不 同 的 是 ,“ 子 博弈 完 
美 纳什 均衡 "能 够 排除 均衡 策略 中 不 可 信和 的 威胁 或 承诺 ,排除 不 稳定 不 合理 的 纳什 均衡 , 留 
下 真正 稳定 的 纳什 均衡 9 。 而 “颤抖 手 完美 均衡 ?是 对 纳什 均衡 的 一 个 改进 ,研究 每 个 参与 
者 都 有 可 能 犯错 误 前 提 下 的 纳什 均衡 。 它 要 求 参 与 者 采用 的 策略 ,不 仅 在 其 他 参与 者 不 犯 
错误 时 是 最 优 的 ,而 且 在 其 他 参与 者 偶尔 犯错 误 时 仍然 是 最 优 的 "”。 因 此 ,“ 颤 拌 手 完美 均 
衡 " 是 一 种 相当 稳定 的 纳什 均衡 。 


2.2.3 ”重复 博弈 
重复 博弈 (Repeated Game) 指 重复 进行 基本 博弈 而 构成 的 博弈 过 程 。 通 常 研究 的 大 多 
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数 重复 博弈 是 静态 博弈 的 重复 ,其 中 的 每 次 博弈 被 称 为 "阶段 博弈 ”而 重复 博弈 又 是 一 个 动 
态 过 程 ,属于 动态 博弈 的 范畴 ,因此 重复 博弈 与 静态 博弈 和 动态 博弈 都 有 关系 "”" 。 虽 然 重 
复 博弈 形式 上 是 原 基 本 博弈 的 反复 ,但 参与 者 的 行动 和 博弈 结果 却 不 一 定 是 原 基本 博弈 的 
简单 重复 。 如 果 参 与 者 的 行动 在 每 个 “阶段 博弈 ?后 都 可 被 观察 到 ,那么 参与 者 就 可 能 参考 
其 他 参与 者 前 面 的 博弈 行为 来 选择 自己 的 策略 ,这 样 就 可 能 导致 不 同 的 均衡 结果 ,所 以 ,不 
能 简单 地 把 重复 博弈 看 成 是 原 基本 博弈 的 线性 累加 。 

重复 博弈 根据 重复 原 基 本 博弈 的 次 数 常 可 分 为 “有 限 次 重复 博弈 "和 “无 限 次 重复 博 
BRO) 。 显 然 ,“ 有 限 次 重复 博弈 ?表示 博弈 重复 次 数 有 限 , 且 有 预定 的 结束 时 间 ,而 “无 限 次 
重复 博弈 "表示 无 限 次 地 重复 原 基本 博弈 。 另 外 需要 注意 的 是 ,还 有 一 种 称 为 "随机 结束 重 
复 博 弈 ”的 重复 博弈 , 它 的 博弈 重复 次 数 是 有 限 的 但 博弈 结束 的 时 间 和 有 具体 的 博弈 重复 次 数 
却 是 不 确定 的 。 

与 独立 的 单 次 静态 博弈 和 动态 博弈 不 同 ,在 重复 博弈 中 每 个 参与 者 在 每 个 阶段 都 需要 
进行 可 能 不 同 的 策略 选择 ,这 是 因为 各 参与 者 在 前 面 阶段 的 博弈 中 的 策略 已 成 为 共同 知识 ， 
参与 者 可 以 在 此 基础 上 进行 策略 选择 。 与 动态 博弈 类 似 地 是 ,重复 博弈 也 有 "* 子 博弈 "的 概 
念 。 这 些 “ 阶 段子 博弈 ?就 是 从 某 个 阶段 (不 包括 第 一 阶段 ?开始 ,直到 最 后 一 个 阶段 的 所 有 
“阶段 博弈 "。 与 原来 的 重复 博弈 相 比较 ,“ 子 博弈 ?要 么 是 重复 次 数 减少 的 重复 博弈 ,要 么 仍 
是 原来 的 重复 博弈 (对 无 限 次 重复 博弈 而 言 ) 。 

重复 博弈 的 效用 与 单 次 静态 博弈 和 动态 博弈 不 同 , 它 不 是 整个 重复 博弈 结束 后 的 一 个 
总 的 效用 ,而 应 包含 博弈 过 程 的 每 个 “阶段 博弈 "中 产生 的 效用 。 对 于 “有 限 次 重复 博弈 ”, 一 
种 计算 重复 博弈 效用 的 方法 是 累加 参与 者 在 各 “阶段 博弈 "中 的 效用 ,简称 “总 效用 ”法 ; 另 
一 种 方法 是 将 总 效用 除 以 重复 次 数 , 即 “平均 效用 ?法 。 而 对 “无限 次 重复 博弈 ”, 由 于 不 同时 
间 获 得 的 利益 对 参与 者 的 价值 是 不 相同 的 ,因此 常 引入 "贴现 系数 "将 后 一 “阶段 博弈 ”的 效 
用 折算 成 当前 阶段 的 效用 。 


2.2.4 不 完全 信息 静态 博弈 


不 完全 信息 静态 博弈 (Incomplete Information Static Game) 又 称 静 态 贝 叶 斯 博弈 ,这 里 
的 不 完全 信息 并 不 是 完全 没有 信息 ,不 完全 信息 静态 博弈 的 参与 者 至 少 必 须 有 关于 其 他 参 
与 者 支付 的 可 能 范围 和 分 布 概率 的 知识 ; 否则 参与 者 的 决策 就 会 完全 失去 依据 5。 实 际 
上 ,在 不 完全 信息 静态 博弈 中 ,各 参与 者 都 知道 自己 的 效用 函数 ,但 不 能 确切 地 知道 其 他 参 
与 者 的 效用 函数 。 另 外 ,虽然 参与 者 不 能 确定 其 他 参与 者 在 相应 策略 下 的 效用 ,但 知道 其 他 
参与 者 有 哪些 可 能 的 效用 结果 ,而 具体 哪 种 效用 结果 会 出 现 则 取决 于 参与 者 属于 哪 种 “类 
型 "。 这 些 “ 类 型 "是 参与 者 自己 清楚 但 其 他 参与 者 无 法 知道 的 个 人 信息 , 即 非 共同 知识 。 因 
此 ,在 求解 不 完全 信息 静态 博弈 时 , 常 把 博弈 过 程 中 参与 者 对 其 他 参与 者 效用 的 不 了 解 转化 
成 对 这 些 参与 者 “类 型 "的 不 了 解 , 也 就 是 说 ,在 分 析 不 完全 信息 静态 博弈 时 ,就 必须 把 关注 
各 参与 者 的 效用 转向 各 参与 者 的 “类 型 "及 采取 的 策略 组 合 "”。 

不 完全 信息 静态 博弈 使 用 标准 式 描述 ,与 完全 信息 静态 博弈 不 同 的 是 它 包 括 5 个 方面 
的 信息 : @ 博 弈 参与 者 集合 ; @ 参 与 者 的 类 型 空间 ; @ 参 与 者 在 知道 自己 类 型 的 条 件 下 ,对 
其 他 参与 者 的 类 型 组 合 推断 ; 四 依赖 于 类 型 的 策略 空间 ; 回 依 赖 于 类 型 的 支付 函数 "9 。 

通过 海 萨 尼 (Harsanyi) 转 换 引 入 虚拟 参与 者 “自然 ?并 将 静态 博弈 赋予 时 间 顺 序 , 可 以 
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把 不 完全 信息 静态 博弈 转化 为 完全 信息 动态 博弈 ,然后 就 可 以 利用 完全 信息 动态 博弈 的 处 
理 方法 实现 不 完全 信息 静态 博弈 的 分 析 。 因 此 ,不 完全 信息 静态 博弈 可 以 看 作 是 先 由 “ 自 
然 " 选 择 各 参与 者 的 类 型 ,然后 再 由 各 参与 者 同时 进行 策略 选择 的 动态 博弈 ,这 样 不 完全 信 
息 静 态 博 弈 中 各 参与 者 的 一 个 策略 实际 上 就 是 针对 自己 各 种 可 能 的 类 型 如 何 进 行 选择 的 问 
题 。 所 以 ,不 完全 信息 静态 博弈 中 参与 者 的 策略 是 关于 类 型 空间 和 行动 空间 的 函数 ,所 有 的 
这 些 函 数 构成 了 参与 者 的 策略 空间 。 

由 不 完全 信息 静态 博弈 得 到 的 均衡 概念 称 为 贝 叶 斯 均衡 (Bayesian Equilibrium) 。 在 
一 个 有 限 不 完全 信息 静态 博弈 中 ,必定 存在 贝 叶 斯 均衡 或 混合 策略 贝 叶 斯 均衡 。 这 种 贝 叶 
斯 均衡 概念 意味 着 参与 者 的 行动 是 同时 发 生 的 ,没有 时 间 先 后 顺序 ,因此 ,没有 任何 参与 者 
能 够 有 机 会 观察 其 他 参与 者 的 选择 。 在 给 定 其 他 参与 者 的 策略 前 提 下 ,每 个 参与 者 的 最 优 
策略 实际 上 依赖 于 自己 的 类 型 。 每 个 参与 者 虽然 不 知道 其 他 参与 者 真正 选择 了 什么 策略 ， 
但 只 要 知道 其 他 参与 者 的 类 型 的 概率 分 布 .就 能 够 正确 地 预测 出 其 他 参与 者 的 策略 选择 与 
各 自 类 型 之 间 的 关系 。 所 以 ,不 完全 信息 静态 博弈 中 各 参与 者 选择 策略 的 依据 就 是 在 给 定 
自己 类 型 和 其 他 参与 者 的 类 型 与 策略 选择 之 间 关 系 的 前 提 下 ,使 得 自己 的 期 望 支付 达到 最 
Xm, 


2.2.5 完全 但 不 完美 信息 动态 博弈 


完全 但 不 完美 信息 动态 博弈 (Complete but Imperfect Information Dynamic Game) 研 
究 的 博弈 情况 具有 以 下 特征 : 四 各 参与 者 在 博弈 结束 时 完全 清楚 每 个 参与 者 的 效用 ; OUR 
行动 的 参与 者 无 法 或 部 分 看 到 自己 选择 策略 之 前 的 博弈 过 程 ,或 者 不 同 的 参与 者 掌握 的 博 
弈 进程 信息 有 差异 ,再 或 者 各 参与 者 有 多 次 策略 选择 ,但 无 法 观察 到 前 面 的 博弈 进程 59 。 
完全 但 不 完美 信息 动态 博弈 的 表示 仍 使 用 扩展 式 博弈 树 描述 。 

与 完全 但 不 完美 信息 动态 博弈 相关 的 均衡 概念 称 " 完 美 贝 叶 斯 均衡 ”(Perfect Bayesian 
Equilibrium) 。 一 个 “完美 贝 叶 斯 均衡 "必须 要 满足 以 下 要 求 : 在 各 个 信息 集中 , 轮 到 策略 
选择 的 参与 者 必须 具有 一 个 “推断 ”(Belief) 值 来 确定 博弈 到 达 信 息 集中 各 个 节点 的 可 能 性 。 
对 多 节点 信息 集 ,“ 推 断 " 值 就 是 到 达 信息 集中 各 个 节点 的 概率 分 布 ,而 对 单 节点 信息 集 , 则 
“推断 ” 值 对 应 的 概率 为 1; @ 给 定 各 参与 者 的 “推断 " 值 , 则 选择 的 策略 应 是 “序列 理性 ” 
(Sequentially Rational) 的 ,也 就 是 说 ,给 定 轮 到 策略 选择 的 参与 者 的 “推断 ” 值 , 则 该 参与 者 
在 接 下 来 的 策略 选择 中 必须 使 自己 的 效用 最 大 ; @ 若 信息 集 在 均衡 路 径 上 , 则 “推断 ” 值 由 
各 参与 者 的 均衡 策略 和 贝 叶 斯 法 则 共同 确定 ; @ 若 信息 集 不 在 均衡 路 径 上 , 则 “推断 ” 值 由 
各 参与 者 可 能 有 的 均衡 策略 和 贝 叶 斯 法 则 共同 确定 9 。 

上 述 涉及 的 纳什 均衡 “ 子 博弈 完美 纳什 均衡 "和 “完美 贝 叶 斯 均衡 "具有 内 在 联系 。“ 子 
博弈 完美 纳什 均衡 ?是 “完美 贝 叶 斯 均衡 ”的 特例 ,也 就 是 说 “完美 贝 叶 斯 均衡 "在 完全 且 完 
美 信息 动态 博弈 中 就 是 “ 子 博 弈 完美 纳什 均衡 "59 。 而 在 静态 博弈 中 ,完美 贝 叶 斯 均衡 就 是 
纳什 均衡 。 


2.2.6 不 完全 信息 动态 博弈 


不 完全 信息 动态 博弈 (Incomplete Information Dynamic Game) 又 称 " 动 态 贝 叶 斯 博弈 ” 
(Dynamic Bayesian Game) 。 与 不 完全 信息 静态 博弈 相 比 ,不 完全 信息 动态 博弈 中 的 博弈 有 
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时 间 先 后 顺序 ,后 参与 者 可 以 通过 观察 先 参与 者 的 行动 ,获得 有 关 先 参与 者 的 信息 ,从 而 修 
正 或 证 实 自己 对 先 参与 者 的 策略 。 与 不 完全 信息 静态 博弈 类 似 ,通过 海 萨 尼 转 换 方法 ,不 完 
全 信息 动态 博弈 可 以 转变 为 完全 但 不 完美 信息 动态 博弈 "”。 

在 不 完全 信息 动态 博弈 中 ,首先 “自然 "选择 参与 者 的 类 型 ,并 将 类 型 告诉 参与 者 自己 ， 
但 不 告诉 其 他 参与 者 ,只 将 类 型 分 布告 诉 其 他 参与 者 ; 在 “自然 ”选择 之 后 ,参与 者 开始 行动 
并 有 先后 顺序 ,后 行动 者 能 观察 到 先行 动 者 的 行动 ,而 不 能 观察 到 先行 动 者 的 类 型 "”。 但 
是 ,因为 参与 者 的 行动 依赖 于 类 型 ,每 个 参与 者 的 行动 都 向 后 行动 者 传递 着 有 关 自 己 类 型 的 
某 种 信息 ,后 行动 者 可 以 通过 观察 先行 动 者 所 选择 的 行动 来 推断 先行 动 者 的 类 型 或 修正 对 
先行 动 者 类 型 的 “ 先 验 推断 ”"(Prior Belief) ,其 实质 是 一 种 概率 分 布 , 然 后 ,根据 这 一 “推断 ” 
值 选择 自己 的 最 优 行动 "9 。 然 而 ,先行 动 者 并 不 是 消极 地 选择 行动 ,他 预测 到 自己 的 行动 
将 被 后 行动 者 所 利用 ,就 会 设法 选择 传递 对 自己 最 有 利 的 信息 ,避免 传递 对 自己 不 利 的 信 
息 59。 这 样 ,博弈 过 程 不 仅 是 参与 者 选择 行动 的 过 程 , 还 是 参与 者 不 断 调整 “推断 " 值 的 

由 于 不 完全 信息 动态 博弈 通过 海 萨 尼 转 换 方法 可 以 转变 为 完全 但 不 完美 信息 动态 博 
弈 ,因此 与 不 完全 信息 动态 博弈 相关 的 均衡 概念 也 是 “完美 贝 叶 斯 均衡 ”, 它 汲取 了 "* 子 博弈 
完美 纳什 均衡 "和 “ 贝 叶 斯 均衡 "的 精华 ,是 * 贝 叶 斯 均衡 "“ 子 博弈 完美 均衡 "和 “ 贝 叶 斯 推 
断 "的 结合 "5 。 

声明 博弈 是 一 类 特殊 的 不 完全 信息 动态 博弈 模型 ,这 种 博弈 模型 主要 研究 在 有 私人 信 
息 、 信 息 不 对 称 的 情况 下 ,人 们 采用 口头 或 书面 的 声明 来 传递 信息 的 博弈 问题 "3 。 信 号 博 
弈 是 一 种 一 般 的 具有 信息 传递 机 制作 用 的 不 完全 信息 动态 博弈 模型 , 它 的 基本 特征 是 博弈 
方 分 为 信息 发 出 方 和 信号 接收 方 两 类 ,先行 动 的 信号 发 出 方 的 行为 对 后 行动 的 信号 接收 方 
来 说 ,具有 传递 信息 的 作用 各 。 


2.2.7 合作 博弈 


合作 博弈 (Cooperation Game) 和 非 合作 博弈 是 博弈 论 中 最 基本 的 一 种 分 类 ,它们 主要 
根据 参与 者 的 行为 逻辑 差别 进行 区 分 。 一 般 地 ,将 允许 存在 约束 力 协议 的 博弈 称 为 合作 博 
弈 ,而 不 存在 有 约束 力 协议 的 博弈 称 为 非 合作 博弈 … 。 前 面 介 绍 的 博弈 类 型 都 属于 非 合 作 
博弈 的 范畴 。 

事实 上 .合作 博弈 中 存在 有 约束 力 的 协议 ,这 说 明了 参与 合作 博弈 中 的 参与 者 之 间 存 在 
共同 利益 ,但 这 些 利益 又 不 完全 一 致 。 因 为 如 果 参 与 者 之 间 利 益 完 全 一 致 或 完全 对 立 , 就 不 
需要 协调 或 没有 协调 的 余地 , 那 就 可 以 用 个 体 理 性 决策 ( 即 通 过 非 合作 博 弈 ;解决 问题 ,那样 
就 不 再 需要 什么 协议 。 因 此 ,只 有 在 参与 者 之 间 既 存在 不 完全 一 致 但 又 有 共同 利益 的 情况 
下 , 才 可 能 需要 利用 协议 来 约束 行动 以 实现 更 大 的 自身 和 共同 利益 。 由 于 利益 不 完全 一 
致 ,又 进一步 决定 了 利益 的 分 配 , 并 促进 善于 利益 分 割 的 讨价还价 (Bargain) 的 形成 。 实 际 
上 ,合作 博弈 协议 的 内 容 除 了 利益 分 配 以 外 就 是 约定 具体 的 行动 ,而 要 达成 协议 的 前 提 就 是 
通过 讨价还价 在 利益 分 配方 面 达成 一 致 "””。 因 此 .不管 合 作 博 弈 问题 来 源 于 经 济 交 易 、 合 
作 还 是 竞争 ,也 不 管 参与 博弈 的 人 数 多 少 .本 质 上 都 是 关于 利益 分 割 的 讨价还价 呈 3 。 


2.2.8 信号 博弈 
信和 号 博弈 (Signaling Game) 实 质 是 一 种 具有 信息 传递 机 制 的 不 完全 信息 动态 博弈 。 在 
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一 个 信号 博弈 中 ,有 两 个 参与 者 S 和 尺 , 分 别称 为 信号 发 送 者 (Sender，S) 和 信号 接收 者 
(Receiver. RO. 。 他 们 在 博弈 时 将 先后 选择 自己 的 动作 ,其 中 参与 者 S 的 类 型 是 私有 信息 ， 
参与 者 RR 只 有 一 个 类 型 , 且 为 共同 信息 。 这 就 是 说 ,参与 者 R 具有 不 完全 信息 且 参 与 者 及 
可 以 从 参与 者 S 的 行动 中 获得 行为 信息 ,这 些 行为 信息 对 参与 者 R 来 说 就 是 反映 参与 者 S 
效用 的 信号 。 

由 于 信号 博弈 属于 不 完全 信息 动态 博弈 ,因此 可 以 通过 海 萨 尼 转 换 表示 为 完全 但 不 完 
美 信息 动态 博弈 ,其 时 间 顺 序 如 下 : 

(1)“ 自 然 ? 先 按 一 定 概率 从 参与 者 S 的 类 型 空间 Bs 中 选择 一 个 类 型 9s, 其 中 0s€0s。 
参与 者 S 知道 gs ,但 参与 者 R 不 知道 。 参 与 者 RR 拥有 对 09s 的 “推断 " 值 (实质 为 先 验 概率 )。 

(2) 参与 者 S 在 观察 到 0s 后 从 其 动作 空间 As 中 选择 一 个 动作 as, 其 中 as€As。 

(3) 参与 者 R 观察 到 as 后 , 先 应 用 贝 叶 斯 法 则 从 先 验 概率 得 到 后 验 概率 ( 即 下 一 个 “ 推 
断 " 值 ), 再 从 其 动作 空间 Ar 中 选择 一 个 动作 ar. 其 中 ar EAr, 

(4) 双方 支付 分 别 由 us (Os «as san) Fl un (Os as san ) 给 出 。 

与 信号 博弈 相关 的 均衡 是 完美 贝 叶 斯 均衡 ,包括 纯 策略 或 混合 策略 完美 贝 叶 斯 均衡 。 
需要 注意 的 是 ， 阶 段 博弈 ?实质 是 一 种 不 完全 信息 静态 博弈 ,因此 其 相关 的 均衡 是 纯 策 略 或 
混合 策略 贝 叶 斯 均衡 。 

一 个 信号 博弈 具有 完美 贝 叶 斯 均衡 的 条 件 如 下 : 

(OD 参与 者 R 必须 有 关于 参与 者 S 类 型 的 "推断" 值 ,由 于 该 “推断 " 值 是 在 观察 到 ws 之 
后 作出 的 ,因此 记 为 p(0s |as) 并 满足 

Vbs,p(bslas) 20 H Dip Oslas) = 1 (2-1) 


(2) 给 定 推断 p(0s | as) ME 与 者 S 发 出 的 信号 as, 参 与 者 R 选择 的 行动 a 应 该 是 最 
优 的 ,也 就 是 最 优化 问题 , 即 
max >)p (0s |as) un (0s «as «an ) (2-2) 
“Rs 


的 解 。 
(3) REBAR WRATH ar ,参与 者 S 选择 的 动作 as 应 该 是 最 优 的 ,也 就 是 最 优 
化 问题 , 即 


maxus(@s+as+ar) (2-3) 
*s 


的 解 。 

(4) 对 每 个 asEAs WR 305 € Os 使 得 os 二 as, 那 么 在 对 应 as 的 参与 者 R 的 信息 集 
中 ,参与 者 R 的 下 一 个 “推断 ” 值 由 贝 叶 斯 法 则 得 到 , 即 
p(0s) 


< (2-4) 
Ses) 
ôs 


bOs |as) = 


2.2.9 演化 博弈 


传统 博弈 类 型 (包含 合作 博弈 和 非 合 作 博 弈 ) 假 定 参 与 者 的 博弈 过 程 具 有 完全 理性 
(Full Rationality) ,也 就 是 说 ,参与 者 在 复杂 的 博弈 环境 中 ,对 于 博弈 时 相互 的 动作 、 支 付 等 
信息 有 准确 的 理解 .分 析 和 判断 能 力 ,已 充分 了 解 并 遵守 博弈 规则 ,通过 复杂 且 多 层次 的 交 


第 2 章 ”博弈 论 概 述 | 


互 推理 得 到 博弈 的 结果 均衡 。 在 这 个 过 程 中 ,参与 者 不 会 犯错 误 , 不 会 怀疑 对 方 的 推理 
能 力 和 理性 ,能 准确 地 进行 推理 。 

与 传统 博弈 类 型 不 同 , 演 化 博弈 (Evolutionary Game) 假 定 博弈 的 参与 者 在 具有 有 限 理 
性 (Bounded Rationality) 的 基础 上 ,分 析 参 与 者 进行 的 策略 选择 ,得 到 的 是 有 限 理性 下 的 博 
弈 均衡 。 这 里 的 有 限 理性 代表 了 参与 者 有 一 定 的 统计 分 析 能 力 和 对 不 同 策略 下 得 到 收益 的 
事后 判断 能 力 ,但 缺乏 事前 的 预测 和 判断 能 力 "”。 参 与 者 只 有 有 限 的 认 知 水 平 有 限 的 信 
息 收集 能 力 及 有 限 的 信息 处 理 和 推理 能 力 ,参与 者 的 决策 行为 将 受到 其 所 处 的 群体 环境 的 
影响 ,只 能 通过 学 习 、 模 仿 进行 策略 选择 。 正 是 因为 存在 有 限 理性 ,参与 者 在 演化 博弈 中 不 
会 马上 得 到 最 优 的 策略 ,而 是 需要 在 所 处 环境 的 影响 下 经 历 一 个 自我 适应 的 调整 过 程 ,通过 
不 断 的 学 习 , 不 断 的 试 错 找 到 最 优 的 策略 。 这 意味 着 演化 博弈 中 的 均衡 不 是 一 次 选择 的 结 
果 , 而 是 需要 动态 地 调整 和 适应 才能 达到 ,并 且 即 使 达到 了 均衡 ,在 环境 改变 的 前 提 下 ,可 能 
会 出 现 偏离 现象 。 

演化 稳定 策略 是 演化 博弈 中 的 重要 概念 ,其 实质 是 演化 博弈 中 的 均衡 , 它 源 于 生物 进化 
论 中 的 自然 选择 原理 "9 。 若 一 个 种 群 达 到 了 演化 稳定 策略 ,那么 该 种 群 中 所 有 个 体 都 采取 
这 种 策略 ,即使 出 现 突变 策略 也 不 会 影响 到 这 个 种 群 。 也 就 是 说 ,那些 具备 有 限 理性 的 种 群 
个 体 根 据 其 当前 收益 会 不 断 地 进行 策略 调整 以 实现 其 收益 的 最 优化 ,最 终 达到 一 种 动态 平 
衡 状 态 ( 即 每 个 个 体 都 选择 演化 稳定 策略 ) 。 当 一 个 种 群 达 到 演化 稳定 策略 后 ,任何 一 个 个 
体 都 不 会 单方 面 改变 其 策略 ,因为 这 种 改变 势必 会 造成 个 体 收益 的 减少 。 所 以 ,一 个 种 群 具 
有 演化 稳定 策略 就 意味 着 该 种 群 具有 很 大 的 稳定 性 , 它 将 能 抑制 任何 变异 对 种 群 的 干扰 。 

演化 稳定 策略 具有 以 下 的 重要 性 质 : 

(1) 演化 稳定 策略 是 一 种 对 称 的 、 完 美的 均衡 9 。 

(2) 演化 稳定 策略 代表 了 静态 概念 ,在 多 种 情况 下 可 以 直接 从 博弈 模型 的 支付 矩阵 中 
得 到 演化 稳定 策略 9 。 

(3) 纳什 均衡 不 一 定 是 演化 稳定 策略 ,只 有 达到 严格 纳什 均衡 才 一 定 是 演化 稳定 策略 ; 
反 过 来 ,演化 稳定 策略 肯定 是 纳什 均衡 ,其 实质 是 纳什 均衡 的 精炼 2 。 

(4) 若 一 个 对 称 的 策略 组 合 是 纳什 均衡 ,那么 它 是 演化 稳定 策略 9 。 

实际 上 ,演化 博弈 的 过 程 归根 结 底 建立 在 选择 (Selection) 和 突变 (Mutation) 这 两 大 机 
制 上 。 选 择机 制 是 指 当前 能 够 获得 较 高 适应 度 (Fitness) 的 策略 在 今后 会 被 更 多 的 参与 者 
通过 学 习 模 仿 后 采用 ; 突变 机 制 是 指 种 群 中 的 部 分 个 体 以 随机 的 方式 选择 动作 策略 ,这 种 
突变 可 能 会 使 参与 者 获得 较 高 收益 也 可 能 获得 较 低 收益 ,其 中 获得 较 高 收益 的 策略 经 过 选 
择机 制 的 作用 变 得 广泛 流行 ,而 获得 较 低 收益 的 策略 则 自然 消亡 59。 若 将 这 种 突变 机 制 体 
现 到 种 群 的 个 体 数 量 上 , 则 采取 广泛 流行 策略 的 个 体 数量 将 增加 ,而 采取 自然 消亡 策略 的 个 
体 数量 将 减少 。 所 以 说 ,演化 博弈 的 基本 思想 就 是 不 断 地 演进 .不 断 地 自 适应 调整 ,从 而 使 
有 较 高 收益 的 策略 变 得 更 加 流行 ,直至 达到 演化 稳定 策略 。 

复制 动态 模型 是 目前 描述 种 群 个 体 行 为 选择 机 制 的 一 种 典型 动力 学 模型 ,这 是 一 种 确 
定性 和 非 线性 模型 。 通 过 复制 动态 模型 .可 以 较 好 地 体现 种 群 个 体 行为 的 有 效 理性 变化 趋 
势 ,在 此 基础 上 加 入 种 群 个 体 的 随机 选择 策略 行为 后 ,就 构成 了 一 个 包含 选择 和 变异 这 两 大 
机 制 的 演化 博弈 模型 ,由 此 推出 的 结论 能 较 好 地 预测 种 群 个 体 的 策略 选择 趋势 "9 。 复 制 动 
态 动 力学 方程 的 给 出 主要 基于 使 用 某 一 策略 的 个 体 的 增长 率 等 于 使 用 该 策略 时 个 体 所 得 的 
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收益 与 种 群 平均 收益 的 差 "”] 。 下 面 给 出 复制 动态 动力 学 方程 的 表达 形式 。 
设 
S 王 {sysz…sk) (2-5) 
JAS BARE AAS Da PERI S SS IER a [B] pi COCOS BRE EL Za] + 选择 纯 策 
略 *; 的 数量 ， 
00) = (0, (2) O) aet) (2-6) 
为 整个 种 群 在 时 刻 上 所 处 的 状态 , 该 状态 实际 上 可 理解 为 该 种 群 在 时 刻 上 的 混合 策略 ,其 
H, OO 为 种 群 个 体 在 时 刻 c 选择 纯 策略 s; 的 数量 占 整 个 种 群 的 比例 ， 即 


&G) = A (2-7) 
í Mao 
其 中 o; Codi AE 
a) =1 (2-8) 
usi OC) ) 为 种 群 个 体 选 择 纯 策略 s; 的 期 望 收 益 , 即 
uCs 000) = XAG Dulsiss;) (2-9) 
u GG) ,0CD ) 为 整个 种 群 的 平均 期 望 收益 , BI 
UOD 0C) = SOC) uls 0C) (2-10) 
假设 每 个 个 体 的 繁殖 率 与 个 体 所 占 比 例 成 正比 2 , 即 
à = piul 00) (2-11) 


由 此 ,可 得 到 复制 动态 方程 为 
(X0 gi) — gi) Si 
Sg)" 


oP ae — im 


ÅD 


git) 


Meo Moo 
= 0;(0) (us; 000) — u (CO 0C) (2-12) 


2.2.10 微分 博弈 


微分 博弈 (Differential Game) 理 论 建 立 于 1965 年 美国 人 Rufus Isaacs 的 Di f ferential 
Games[ 一 书 , 该 书 是 世界 上 第 一 部 微分 博弈 专著 ,其 出 版 标志 着 微分 博弈 的 诞生 ,Isaacs 
也 因此 被 尊称 为 “微分 博弈 之 父 ”。 其 主要 内 容 是 研究 动态 的 追 逃 策略 问题 ,描述 的 是 由 一 
位 追捕 者 (Pursuer) 和 一 位 逃避 者 (Evader) 所 组 成 的 零 和 微分 博弈 及 其 解法 。 在 这 个 零 和 
微分 博弈 中 ,追捕 者 的 目标 是 获得 最 大 化 抓 捕 逃 避 者 的 策略 ,而 逃避 者 的 目标 是 获得 最 大 化 
逃脱 追捕 者 的 策略 ,其 中 追捕 者 和 逃避 者 的 策略 分 别 是 各 自 的 追捕 和 逃避 路 线 C 。 由 于 远 
避 者 的 收益 是 追捕 者 的 损失 ,反之 也 一 样 ,所 以 这 是 一 个 零 和 微分 博弈 。1970 年 ,美国 数学 
家 Avner Friedman 建立 了 微分 博弈 值 与 鞍点 存在 性 理论 站, 奠定 了 微分 博弈 的 数学 理论 
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基础 。 随 后 ,微分 博弈 理论 的 研究 与 应 用 有 了 很 大 的 发 展 ,定量 与 定性 微分 博弈 、 非 合作 与 
合作 微分 博弈 、 随 机 微分 博弈 、 主 从 微分 博弈 等 不 同 博弈 类 型 问题 的 研究 不 断 深入 。 在 国 
内 , 张 抽 泳 院士 的 (微分 对 策应 该 是 最 早 的 专著 ; 2000 年 , 李 登 峰 教授 的 (微分 对 策 及 其 
应 用 》)r 兴 专著 问世 。 这 两 本 专著 重点 分 析 了 微分 博弈 在 军事 、 控 制 问题 上 的 应 用 。 

实际 上 ,微分 博弈 将 原来 离散 的 博弈 过 程 扩展 到 连续 时 间 之 上 ,也 就 是 说 ,参与 者 可 以 
在 无 限 小 的 时 间 内 改变 各 自 的 控制 策略 。 因 此 ,使 用 微分 博弈 可 以 描述 连续 动态 博弈 系统 
的 演化 过 程 。 微 分 博弈 理论 类 似 于 传统 的 最 优 控 制 理论 , 且 使 用 类 似 的 数学 分 析 处 理工 具 。 
不 过 最 优 控制 理论 主要 考虑 的 是 单个 参与 者 为 一 个 目标 而 进行 的 控制 ,而 微分 博弈 则 要 考 
虑 多 个 参与 者 对 成 本 函数 各 自 有 不 同 的 目标 而 分 别 进行 的 控制 , 且 还 要 考虑 参与 者 之 间 选 
择 控制 策略 时 的 相互 影响 。 由 于 在 连续 时 间 上 描述 参与 者 之 间 的 最 优 策略 相互 关系 往往 比 
较 困 难 , 因 此 ,在 微分 博弈 理论 中 需要 对 各 参与 者 的 控制 策略 空间 作出 限制 。 其 中 较 严 格 的 
限制 即 为 “ 开 环 ”(Open-loop) 控 制 策略 ,该 类 型 的 控制 策略 要 求 参 与 者 在 博弈 过 程 中 得 不 到 
新 的 信息 ,所 以 ,只 能 构造 出 一 个 随时 间 而 变化 的 控制 函数 作为 自己 的 控制 策略 ,而 不 能 根 
据 参 与 者 双方 的 实际 博弈 进程 的 观察 来 动态 改变 自己 的 控制 策略 中。 比 * 开 环 ” 控 制 策 略 
限制 要 弱 一 些 的 是 “闭环 ”Closed-loop) 控 制 策略 ,该 控制 策略 使 参与 者 可 以 得 到 反馈 信息 ， 
从 而 能 动态 实时 地 更 改 各 自 的 控制 策略 。 但 为 了 能 在 数学 上 进行 处 理 , 一 般 假设 其 中 的 一 
个 参与 者 不 能 直接 观察 到 其 他 参与 者 的 博弈 变量 ,而 只 能 观察 到 某 种 状态 变量 ,另外 ,还 需 
假设 博弈 过 程 具有 马尔 可 夫 性 , 即 以 往 的 博弈 历史 不 会 影响 到 后 续 的 博弈 过 程 ,参与 者 仅 根 
据 当 前 状态 变量 的 取 值 来 决定 自己 应 采取 的 控制 策略 55 。 

微分 博弈 的 均衡 解 主要 有 开 环 纳什 均衡 (Open-loop Nash Equilibrium) ,闭环 纳什 均衡 
(Closed-loop Nash Equilibrium) 和 反馈 纳什 均衡 (Feedback Nash Equilibrium) 。 

开 环 纳什 均衡 的 解法 有 3 个 方面 的 特点 : 首先 ,在 其 他 参与 者 都 采用 最 优 控制 策略 的 
条 件 下 ,每 位 参与 者 在 选择 最 优 控制 策略 时 ,不 仅 要 考虑 自己 当前 的 瞬时 成 本 ,还 要 考虑 博 
弈 状态 的 变化 进展 对 自己 未 来 涉及 的 成 本 带 来 的 影响 ; 其 次 ,博弈 的 最 优 状态 取决 于 所 有 
参与 者 的 最 优 控制 策略 以 及 当前 的 时 间 点 和 状态 ,而 在 博弈 开始 时 间 的 最 优 状 态 与 博弈 的 
开始 状态 相同 ; 最 后 ,在 所 有 参与 者 都 采用 最 优 控制 策略 的 条 件 下 ,而且 参与 者 的 这 些 最 优 
控制 策略 只 依赖 于 当前 时 间 和 开始 状态 的 情况 下 ,每 位 参与 者 的 目标 成 本 函数 的 变化 取决 
于 它 在 当前 的 瞬时 成 本 、 当 前 的 状态 和 当前 的 目标 成 本 函数 等 "9 。 

与 开 环 纳什 均衡 的 解法 类 似 , 闭 环 纳什 均衡 的 解法 包含 开 环 纳什 均衡 解法 的 前 两 方面 
的 特点 ,但 第 三 方面 的 特点 有 区 别 。 在 闭环 纳什 均衡 解法 中 ,每 位 参与 者 的 目标 成 本 函数 的 
变化 除 取 决 于 它 在 当前 的 瞬时 成 本 和 当前 的 目标 成 本 函数 外 ,还 取决 于 状态 的 瞬时 变化 。 

而 反馈 纳什 均衡 的 解法 包含 两 方面 的 特点 。 首 先 , 当 所 有 参与 者 都 采用 根据 当前 时 间 
点 和 状态 确定 的 最 优 控制 策略 时 ,参与 者 价值 函数 的 值 将 随 着 时 间 的 进展 而 转变 , 且 在 每 一 
瞬间 转变 的 减 数 等 于 它 的 瞬时 成 本 ,而 状态 的 最 优 变化 进展 为 价值 函数 值 所 带 来 的 所 有 转 
变 之 和 ; 其 次 ,参与 者 的 价值 函数 在 最 后 时 间 点 的 值 等 于 参与 者 在 博弈 结束 后 的 终 期 
REI, 

通常 ,在 一 个 两 人 零 和 微分 博弈 中 ,参与 者 在 逗留 期 [0, 丰 区 间 的 目标 成 本 函数 为 


F 
Jt) w@)) = f gx u) v(t) dt + qGeCT)) (2-13) 
o 
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str ce [0,T 为 博弈 的 每 一 时 刻 ; T 为 博弈 的 结束 时 间 ; y(t) 和 w(t) 分别 为 两 个 参与 者 
可 以 在 时 刻 上 采取 的 控制 策略 ,博弈 过 程 中 使 用 的 所 有 控制 策略 的 集合 代表 了 参与 者 随时 
间 而 进展 的 控制 策略 路 径 ; x(7) 为 状态 向 量 , 其 动态 变化 过 程 常 使 用 微分 式 
XG) = fOr) sp) GO) 
x(0) — xo 
描述 ; gx pO ,wv(1) ) 为 参与 者 在 时 刻 1 的 瞬时 成 本 ; g(x(T)) 为 博弈 的 终 期 成 本 。 选 
择 控制 策略 peo) 的 参与 者 在 接 下 来 的 博弈 过 程 中 将 试图 最 小 化 目标 成 本 函数 J Cn CO - 
v) ,与 之 相反 ,选择 控制 策略 v(?) 的 参与 者 将 试图 最 大 化 Jj(1) ,v(1))。 尤 其 需要 说 明 的 
是 , 零 和 微分 博弈 的 鞍点 (Saddle-point) 即 是 该 微分 博弈 的 纳什 均衡 ,也 就 是 说 ,在 两 个 参与 
者 都 采用 鞍点 控制 策略 时 ,在 对 方 没有 改变 控制 策略 的 前 提 下 ,任何 一 方 都 不 会 偏离 鞍点 控 
制 策略 。 因 此 ,鞍点 控制 策略 实际 上 已 成 为 参与 者 能 够 选择 的 最 优 控制 策略 。 


2.2.11 随机 博弈 


随机 博弈 (Stochastic Game) 是 一 类 具有 状态 概率 转移 的 动态 博弈 , 它 由 一 系列 阶段 组 
成 中 。 在 随机 博弈 中 每 一 “阶段 博弈 "的 起 始 , 博 弈 处 于 某 种 特定 状态 。 每 个 参与 者 选择 某 
种 动作 策略 ,此 时 会 获得 由 当前 状态 和 动作 策略 确定 的 收益 。 然 后 整个 随机 博弈 按照 概率 
的 分 布 和 参与 者 选择 的 动作 策略 随机 转移 到 下 一 个 “阶段 博弈 *。 在 新 的 “阶段 博弈 "( 状 
AS) ,重复 上 一 次 的 动作 策略 选择 过 程 ,再 继续 进行 有 限 或 无 限 次 数 的 “阶段 博弈 *。 最 后 ,一 
个 参与 者 得 到 的 累积 收益 常用 各 “阶段 博 穿 ”的 收益 的 贴现 和 或 是 各 “阶段 博弈 "的 收益 的 平 
均值 的 下 限 来 计算 。 

如 果 整 个 随机 博弈 具有 有 限 数量 的 参与 者 并 且 每 个 "阶段 博弈 包含 的 状态 数量 有 限 ， 
那么 该 随机 博弈 存在 一 个 纳什 均衡 2 。 同 样 地 ,对 于 一 个 具有 无 穷 阶 段 的 随机 博弈 ,如 果 
使 用 各 “阶段 博弈 ?的 收益 的 贴现 和 来 计算 参与 者 在 整个 随机 博弈 的 收益 ,那么 这 个 随机 博 
弈 也 存在 纳什 均衡 。Nicolas Vieille 已 经 证 明 具 有 有 限 阶 段 和 有 限 状 态 的 两 人 随机 博弈 当中 ， 
如 果 参 与 者 在 博弈 过 程 中 的 收益 使 用 各 个 阶段 收益 平均 值 的 下 限 来 计算 ,是 能 逼近 纳什 均衡 
的 25 。 然 而 ,包含 两 个 以 上 的 参与 者 的 随机 博弈 是 否 存在 纳什 均衡 ,仍然 是 个 未 决 的 问题 "9 。 

下 面 给 出 双人 零 和 随机 博弈 的 形式 化 描述 。 在 一 个 双人 零 和 随机 博弈 中 , 设 包 含 = 个 
“阶段 博弈 2m (R=1. e. =)。 每 一 个 “阶段 博弈 ” 


(2-14) 


V — Qi (2-15) 
是 一 个 m Xm PE HE REA EER N 
m =r t Ser, (2-16) 
其 中 ,对 i 
Vk... 20 H TES (2-17) 
"E88 -BEELIERE ACER “MEERI D 的 转移 概率 为 
ge 一 工 一 Yu (2-18) 


参与 者 1 的 混合 策略 aq! 是 一 个 mx 维 向 量 并 满足 
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Sat = (2-19) 
其 中 ,at 宇 0。 参 与 者 2 的 混合 策略 Bf 是 一 个 nn4 维 向 量 并 满足 
Se =t (2-20) 


Kp .gro. 

给 定 参与 者 1 和 2 AY" FEM RE” AD ,可 以 计算 从 * 阶 段 博弈 2 开始 的 期 望 支付 内 (一 
1，…，x), 从 而 可 得 到 "策略 对 ”(i 力 的 博弈 值 向 量 w 一 (wwm,…,z)。 如 果 博 弈 值 向 量 v 
存在 ,为 计算 参与 者 1 和 2 的 最 优 策略 ,需要 将 “阶段 博弈 "T 用 期 望 支付 


» = val(Ax) (2-21) 
代替 ,其 中 val AO EE Pe EAE, 的 值 , 且 
A = o$) (2-22) 
是 一 个 ms Xni 矩阵 ,其 每 个 矩阵 元 素 
冶 三 路 十 Yu (2-23) 


最 终 , 对 整个 随机 博弈 而 言 ,参与 者 1 和 2 的 最 优 策略 即 是 每 个 矩阵 博弈 As 中 所 有 各 
自 最 优 策略 的 集合 。 


2.2.12 联盟 博弈 


联盟 博弈 (Coalitional Game) 在 合作 博弈 领域 是 应 用 最 广泛 的 博弈 5 人 拉 。 联 盟 博弈 使 
用 联盟 式 描述 ,包含 参与 者 集合 和 特征 函数 (Characteristic Function) 两 个 元 素 。 与 联盟 博 
弈 相关 的 重要 概念 主要 有 “ 优 超 ” 核 (Core)、 夏 普 里 值 (Shapley Value) 和 稳定 集 (Stable 
Set) ,其 中 稳定 集 是 联盟 博弈 的 解 概念 。 

联盟 博弈 的 最 大 优势 在 于 所 有 参与 者 的 收益 都 会 有 一 定 程度 增加 ,或 者 至 少 有 一 个 参 
与 者 的 收益 会 在 参与 者 相互 的 合作 中 有 所 增加 ,而 其 他 参与 者 的 收益 都 不 会 因此 减 小 ,因此 
一 个 联盟 的 整体 收益 会 相应 增加 。 实 质 上 ,这 种 收益 的 增加 主要 是 因为 联盟 博弈 选择 的 是 
合作 行为 ,或 者 说 是 相互 妥协 的 方式 .这样 就 可 以 产生 超出 各 个 参与 者 单独 采取 博弈 行为 所 
获得 的 收益 之 和 。 当 然 ,其 实现 过 程 需要 参与 联盟 博弈 的 各 个 参与 者 在 合作 之 前 通过 重复 
的 讨价还价 才能 达成 合作 的 共识 。 

联盟 博弈 的 存在 需要 满足 以 下 两 个 条 件 : 

(1) 从 联盟 外 部 来 看 ,联盟 的 整体 收益 要 大 于 各 个 联盟 内 部 参与 者 在 非 合 作 博 弈 中 的 
收益 的 总 和 。 

(2) 从 联盟 内 部 来 看 ,应 具有 包含 帕 累 托 改进 特性 的 分 配 规则 , 即 每 个 合作 参与 者 都 能 
够 获得 一 部 分 多 于 其 不 选择 加 入 联盟 时 的 收益 。 

在 实际 应 用 中 ,联盟 博弈 主要 用 来 描述 一 群 参 与 者 之 间 合 作 的 动态 过 程 , 处 理 合作 群体 
的 形成 问题 ,使 用 merge-and-split 规则 动态 更 新 联盟 集合 .协调 参与 者 之 间 的 行动 ,使 得 整 
个 联盟 的 效用 最 大 .个 体 参 与 者 的 收益 最 优 。 联 盟 博 弈 的 merge-and-split 规则 能 够 以 分 布 
式 的 方式 实现 ,适用 于 无 线 网 络 节点 之 间 相 互 合作 的 博弈 , 它 为 无 线 网 络 设计 公平 的 ,健壮 
的 、 高 效 的 合作 通信 策略 提供 了 强 有 力 的 数学 工具 。 


20 


| 博 蛮 论 与 无 线 传感器 网 络 安全 


联盟 博弈 主要 由 参与 者 集合 N 二 {1,…,n) 和 联盟 值 组 成 ,其 中 ,联盟 值 通常 用 v 表示 ， 
它 代表 博 弈 中 整个 联盟 的 效用 ; 联盟 博弈 表示 为 (N,v)。 联 盟 博 弈 具有 可 传递 性 (TU) 和 
不 可 传递 性 (NTU) ,可 传递 性 是 指 联盟 接收 的 总 效用 能 以 任何 方式 在 联盟 成 员 中 分 配 。 联 
盟 博弈 具有 以 下 的 基本 定义 。 

定义 2-1 当 联盟 中 仍 有 参与 者 加 入 或 退出 发 生 时 ,联盟 博弈 处 于 不 稳定 状态 。 当 参 
与 者 没有 动机 形成 新 的 联盟 时 ,联盟 博弈 处 于 稳定 状态 ,此 时 的 稳定 联盟 叫做 具有 TU 联盟 
核 ,可 表示 为 


Cw = (06:930; 40 B YSSEN, 3)0;>vS)) (2-24) 
i€N i€S 
定义 2-2 如果 每 个 参与 者 获得 的 收益 不 小 于 单独 行动 时 获得 的 收益 , 即 
Vi, &zwliD H 0;—wN (2-25) 


i€N 
则 收益 向 量 g — (0i ,…,Ov) 反 映 出 个 体 参 与 者 是 理性 的 。 
定义 2-3 具有 可 传递 性 (TU) 的 联盟 博弈 (N,v) ,如 果 对 于 任何 两 个 不 相交 的 联盟 ， 
Si, SC N.Si(1S — WE (S1 U 5S;) 宇 v(S1) 十 v(S;), 则 此 联盟 具有 超 可 加 性 。 
定义 2-4 如 果 联 盟 的 TU 核 为 空 或 者 很 大 且 无 法 选择 适当 的 收益 分 配 集合 时 , 则 对 于 
每 个 参与 者 iE N ,由 Shaplay 值 分 配 的 收益 为 
ISIKINI-ISI-1I 
IN |! 


$n CS U 0-89] (2-26) 


SEN\{i) 
定义 2-5 对 于 给 定 的 两 个 联盟 集合 S— Si S) MRS {R cm RI ELD: HK 
盟 集合 S AR 传递 的 二 元 关系 ,SPDR 表示 联盟 博弈 参与 者 i 偏向 于 加 入 联盟 集合 S 。 


2.3 小 结 


本 章 概要 介绍 了 博弈 论 的 相关 知识 。 通 过 对 博弈 论 中 重要 的 基本 概念 简介 ,对 完全 信 
息 静 态 博弈 .完全 且 完 美 信息 动态 博弈 .重复 博弈 ,不 完全 信息 项 态 博弈 、 完 全 但 不 完美 信息 
动态 博弈 ,不 完全 信息 动态 博弈 、 合 作 博 弈 .信号 博弈 、 演 化 博弈 、 微 分 博弈 .随机 博弈 .联盟 
博弈 等 博弈 类 型 的 说 明和 分 析 , 读 者 可 以 初步 了 解 博弈 论 ,为 后 续 章 节 博 弈 论 的 应 用 和 相关 
工作 的 比较 提供 知识 准备 。 实 际 上 ,后续 章节 涉及 的 博弈 类 型 要 么 是 上 述 类 型 的 一 种 ,要 么 
是 上 述 类 型 的 进一步 延伸 。 
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基于 信号 博弈 的 无 线 传感器 网 络 
入 侵 检测 最 优 策 略 人 研究 


本 章 应 用 信号 博弈 描述 并 分 析 恶 意 传感器 节点 和 无 线 传感器 网 络 人 侵 检测 系统 之 间 的 
交互 过 程 。 在 每 个 独立 的 阶段 ,建立 "阶段 人 侵 检 测 博弈 "模型 ,分 别 得 到 该 模型 的 纯 策 略 贝 
叶 斯 均衡 和 混合 策略 贝 叶 斯 均衡 。 随 着 博弈 的 连续 进行 ,构建 多 阶段 动态 人 侵 检 测 博弈 ” 
反映 恶意 传感器 节点 和 和 人 侵 检 测 代理 之 间 的 交互 活动 ,得 到 相应 的 完美 贝 叶 斯 均衡 ,在 此 基 
础 上 实现 入侵 检测 启动 最 优 策略 的 机 制 和 算法 ,从 而 在 保证 无 线 传感器 网 络 安全 的 前 提 下 ， 
实现 无 线 传感器 网 络 人 侵 检 测 系统 的 节能 目标 。 


3.1 引言 


近年 来 ,大 量 无 线 传感器 网 络 基础 理论 和 关键 技术 的 研究 为 其 大 范围 的 应 用 奠定 了 基 
础 ,这 些 应 用 可 包括 人 们 日 常生 活 的 诸多 方面 。Akyildiz 等 人 外 将 无 线 传感器 网 络 的 应 用 
领域 分 为 军事 环境、 健康 .家 庭 以 及 其 他 商业 领域 。 可 以 说 ,在 不 久 的 将 来 ,由 大 量 低 成 本 
传感器 节点 组 成 的 无 线 传 感 器 网 络 将 成 为 人 们 生活 中 必 不 可 少 的 一 部 分 。 

类 似 于 其 他 计算 机 网 络 环境 ,无 线 传感器 网 络 安全 虽然 不 是 必需 的 功能 ,但 提供 这 种 安 
全 机 制 是 保证 无 线 传感器 网 络 可 用 和 可 靠 的 必然 需求 。 当 前 ,保证 网 络 安全 的 机 制 主要 包 
括 预防 (Prevention) 和 检测 (Detection) 两 大 机 制 。 预 防 机 制 主要 通过 加 解密 、 密 钥 管 理 、 安 
全 路 由 、 安 全 数据 融合 等 技术 提供 数据 的 机 密 性 (Confidentiality) 完整 性 (Integrity) 和 真 
实 性 (Authentication); 而 检测 机 制 通常 使 用 入 侵 检测 系统 (Intrusion Detection System) 3: 
现 ,典型 的 有 DTRABI 。 由 于 一 个 无 线 传感器 网 络 可 能 包含 大 量 恶意 传感器 节点 A JH 
作为 第 一 防线 的 预防 机 制 不 足以 保证 无 线 传感器 网 络 的 安全 。 这 些 恶 意 传感器 节点 的 目的 
是 在 最 小 化 被 捕获 概率 的 前 提 下 最 大 化 地 破坏 无 线 传 感 器 网 络 的 通信 数据 等 ,通过 干扰 无 
线 传感器 网 络 的 正常 工作 和 浪费 正常 传感器 节点 的 珍贵 资源 获得 利益 。 为 了 减少 这 些 恶 意 
节点 造成 的 影响 ,无 线 传感器 网 络 需 要 入 侵 检测 系统 检测 那些 已 突破 第 一 道 防线 的 恶意 传 
感 器 节点 。 通 过 使 用 入 侵 检测 系统 .使 得 无 线 传感器 网 络 具 备 响应 和 隔离 入 侵 者 的 能 力 , 从 
而 保证 无 线 传感器 网 络 的 正常 工作 。 

然而 ,要 在 无 线 传 感 器 网 络 中 资源 有 限 的 传感器 节点 上 有 效 使 用 入 侵 检测 系统 ,一 个 首 
先 要 解决 的 问题 是 如 何 选择 合适 的 检测 策略 ,因为 这 决定 了 无 线 传感器 网 络 资源 被 消耗 的 
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程度 。 无 线 传感器 网 络 中 的 传感器 节点 在 计算 能 力 、 存 储 容量 和 通信 带宽 等 方面 与 现存 网 
络 相 比 有 很 大 的 不 足 。 尤 其 是 目前 大 多 数 传感器 节点 采用 电池 供电 ,因此 能 量 较 少 。 另 外 ， 
应 用 入 侵 检测 系统 本 身 就 需要 耗费 较 多 的 计算 和 能 量 资 源 ,这 对 于 传感器 节点 而 言 是 一 个 
很 大 的 负担 。 虽 然 伴 随 着 微 电 子 技术 、 计 算 机 网 络 通信 的 发 展 ,无 线 传感器 网 络 的 计算 等 能 
力 将 逐步 提升 ,但 如 何 节省 传感器 节点 资源 的 消耗 始终 是 一 个 需要 考虑 的 问题 。 

博弈 论 作为 一 种 研究 参与 者 之 间 竞 争 和 合作 关系 的 数学 理论 工具 ,已 广泛 应 用 于 网 
络 安全 领域 ,如 P2P 安全 外 防御 DOS 攻击 ”中 和 人 侵 检 测 * 引 等 。 博 弈 论 包含 适合 于 不 
同 状况 的 博弈 类 型 ,如 果 要 研究 的 问题 中 参与 者 具有 不 完全 信息 且 博 弈 过 程 具有 多 个 阶段 
时 ,那么 信号 博弈 是 一 种 非常 合适 的 博弈 类 型 ,因为 这 种 博弈 模型 具有 “推断 ”( 先 验 概率 或 
后 验 概率 ) 值 动态 更 新 的 能 力 。 

无 线 传感器 网 络 人 侵 检测 问题 中 的 恶意 传感器 节点 和 入侵 检 测 系统 之 间 的 交互 可 以 方 
便 地 应 用 信号 博弈 进行 描述 。 一 个 无 线 传 感 器 网 络 人 侵 检测 系统 通常 包含 监测 和 决策 模 
块 。 监 测 模块 主要 用 于 检查 无 线 传感器 网 络 中 的 被 监控 数据 信息 ,而 决策 模块 用 于 判断 这 
些 被 监控 的 数据 信息 是 否 合法 。 其 中 ,被 监控 数据 信息 包含 了 正常 和 恶意 传感器 节点 所 有 
的 行为 信息 。 因 此 ,从 检查 到 决策 的 整个 动态 过 程 实际 上 就 是 恶意 传感器 节点 和 和 人 侵 检测 
系统 进行 交互 的 过 程 。 通 过 信号 博弈 这 种 数学 工具 ,能 很 好 地 描述 出 这 种 交互 过 程 的 本 质 ， 
实现 人 侵 检测 系统 优化 防御 策略 的 要 求 ,达到 改进 入 侵 检 测 系统 正 收 益 和 有 效 节约 传感器 
节点 能 量 消耗 的 目的 。 

本 章 将 应 用 信和 号 博弈 描述 并 分 析 恶 意 传感器 节点 和 无 线 传 感 器 网 络 人 侵 检 测 系统 之 间 
的 交互 过 程 。 其 中 ,无 线 传 感 器 网 络 使 用 分 布 一 集中 混合 式 (Distributed-centralized) 网 络 
结构 模型 且 每 个 传感器 节点 上 已 安装 入 侵 检 测 代理 (Intrusion Detection Agent) ,这 些 人 侵 
检测 代理 构成 了 整个 无 线 传感器 网 络 人 侵 检测 系统 。 为 了 节省 能 量 消耗 和 减少 数据 包 碰 
撞 , 不 是 所 有 的 人 侵 检测 代理 而 是 仅 位 于 簇 头 上 的 入 侵 检测 代理 才 可 能 被 启动 实现 对 恶意 
传感器 节点 的 人 侵 检测 。 在 每 个 独立 的 阶段 ,建立 "阶段 人 侵 检测 博弈 ”(Stage Intrusion 
Detection Game) 模 型 ,探索 该 博弈 模型 纳什 均衡 存在 的 条 件 并 将 分 别 得 到 纯 策 略 贝 叶 斯 均 
衡 和 混合 策略 贝 叶 斯 均衡 。 随 着 博弈 的 进行 ,通过 构建 “多 阶段 动态 入 侵 检测 博弈 ”Multi- 
stage Dynamic Intrusion Detection Game) 来 反映 恶意 传感器 节点 和 人 和信 侵 检测 代理 之 间 的 交 
互 活动 。 在 这 个 过 程 中 ,入 侵 检测 代理 将 依据 恶意 传感器 节点 的 行为 动态 地 更 新 针对 恶意 
传感器 节点 的 “推断 " 值 ,从 而 相应 地 调整 它 的 防御 策略 。 另 外 ,在 得 到 “多 阶段 动态 入 侵 检 
测 博弈 ”的 完美 贝 叶 斯 均衡 的 基础 上 ,设计 入 侵 检 测 运行 机 制 和 相应 的 算法 。 

在 扩展 作者 前 期 工作 "中 的 基础 上 .本 章 工作 主要 包括 以 下 内 容 : 

COD 基于 信号 博弈 构建 一 种 “无 线 传感器 网 络 人 侵 检测 博弈 "模型 用 于 研究 恶意 传感器 
节点 和 入侵 检测 代理 之 间 的 策略 选择 ,这 个 模型 满足 了 入 侵 检 测 代理 对 传感器 节点 的 类 型 
(正常 或 恶意 ) 未 知 的 实际 场景 。 

(2) 建立 并 证 明了 “无 线 传感器 网 络 人 侵 检 测 博弈 "模型 存在 均衡 的 定理 ,这 些 定理 为 
入 侵 检测 代理 在 决定 是 否 采 取保 卫 (Defend) 或 空 闻 (Idle) 策 略 时 提供 最 优 的 策略 ,也 就 是 
说 ,使 用 这 些 最 优 策 略 将 使 入侵 检测 代理 不 必 始 终 采取 动作 Defend, 这 样 可 以 节省 因 采 取 
动作 Defend 导致 的 能 量 消耗 。 

(3) 基于 完美 贝 叶 斯 均衡 设计 无 线 传感器 网 络 和 人 侵 检测 系统 运行 机 制 和 相应 的 算法 。 
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(4) 构建 模拟 实验 验证 “多 阶段 动态 人 侵 检测 博弈 ”模型 的 有 效 性 。 

本 章 其 余 章 节 安 排 如 下 : 3. 2 节 综 述 相 关 工 作 并 突出 说 明 本 章 工 作 与 其 他 相关 工作 的 
区 别 ; 3. 3 节 描 述 分 布 一 集中 混合 式 无 线 传感器 网 络 人 侵 检 测 博弈 模型 ,包括 “阶段 入 侵 检 
测 博弈 ?模型 及 其 纯 策 略 贝 叶 斯 均衡 及 混合 策略 贝 叶 斯 均衡 “多 阶段 动态 和 人 侵 检 测 博弈 ” 模 
型 及 其 混合 策略 完美 贝 叶 斯 均 衔 以 及 提出 基于 混合 策略 完美 贝 叶 斯 均衡 的 入 侵 检测 机 制 并 
给 出 入 侵 检测 算法 ; 3.4 节 通 过 实验 分 析 “ 多 阶段 动态 入 侵 检 测 模型 "的 特性 ; 3. 5 节 给 出 
本 章 小 结 。 

本 章 用 到 的 符号 含义 如 下 : 

Gs 表示 “成 员 传 感 器 节点 "(Member Sensor Node)S, 如 果 S 是 “正常 成 员 传感器 节点 ”， 
则 0s 二 0; 否则 Os=1. 

Or 表示 无 线 传感器 网 络 “ 秘 头 入 侵 检 测 代 理 ”R。 

as(0s 王 0) 表示" 正常 成 员 传 感 器 节点 ”的 动作 。 

as (Os 二 1) 表示“ 恶意 成 员 传感器 节点 ”的 动作 。 

As(0s) 表 示 “ 成 员 传感器 节点 ”的 动作 空间 。 

ar(0r) 表 示 “ 簇 头 入 侵 检 测 代 理 "R 的 动作 。 

Ar On) BAS RAK A BEES CER 的 动作 空间 。 

5A 表 示 " 恶 意 成 员 传感器 节点 "的 攻击 收益 。 

gc 表示 "正常 /恶意 成 员 传 感 器 节点 ”的 合作 收益 。 

gD 表示 “ 簇 头 入 侵 检 测 代理 ”R 采取 动作 Defend 的 收益 。 

ca 表示 “恶意 成 员 传感器 节点 ”的 攻击 成 本 。 

cc 表示 “正常 /恶意 成 员 传 感 器 节点 ”的 合作 成 本 。 

cv GR “HES A AZ REI RR 采取 动作 Defend 的 成 本 。 

Up BAR HR A A RR 的 误 报 损失 。 

a RARE APE RARER 的 检测 率 。 

BRA GI APE CIR 的 误 报 率 。 

2p 表示 “成 员 传感器 节点 "是 恶意 节点 的 概率 。 

p 表示 “恶意 成 员 传 感 器 节点 "采取 动作 Attack 的 概率 。 

6 RIR Ek AWAR R 采取 动作 Defend 的 概率 。 

p^ 表示 “恶意 成 员 传感器 节点 "采取 动作 Attack 的 均衡 概率 。 

0* RA HRA ARRE R 采取 动作 Defend 的 均衡 概率 。 

os 表示 “恶意 成 员 传感器 节点 ”的 策略 。 

os 表示 "恶意 成 员 传感器 节点 ”的 均衡 策略 。 

og 表示 “ 簇 关 入侵 检测 代理 ”R 的 策略 。 

ok 表示 “ 簇 头 入 侵 检测 代理 "R 的 均衡 策略 。 

表示 “恶意 成 员 传感器 节点 "在 “阶段 博弈 "i 采取 动作 Attack 的 概率 。 

pc 表示 “恶意 成 员 传 感 器 节点 ”在 “阶段 博弈 "采取 动作 Attack 的 均衡 概率 。 

Onde AN EK AE (RHR 在 “阶段 博弈 "采取 动作 Defend 的 概率 。 

Of 表示 “ 簇 关 入 侵 检测 代理 ”R 在 “阶段 博弈 "4 采取 动作 Defend 的 均衡 概率 。 

os, 表示 "恶意 成 员 传感器 节点 "在 “阶段 博弈 "x% 的 策略 。 
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as, 表示 "恶意 成 员 传感器 节点 "在 “阶段 博弈 ?的 均衡 策略 。 
on, 表示 “ 簇 头 入 侵 检 测 代理 "R 在 “阶段 博弈 "的 策略 。 
on, v HR A eR RR 在 “阶段 博弈 i 的 均衡 策略 。 


3.2 相关 工作 


和信 侵 检测 作为 一 种 积极 主动 的 安全 防护 技术 ,提供 了 防范 内 部 攻击 .外 部 攻击 的 能 力 。 
入 侵 检测 技术 是 无 线 传感器 网 络 安全 研究 的 重点 与 难点 之 一 ,已 经 得 到 国内 外 研究 人 员 的 
积极 关注 并 已 有 大 量 文献 发 表 。 在 中 国 知 网 .ACM IEEE Xplore, Engineering Village, 
ScienceDirect, Web of Science, SpringerLink 等 数据 库 中 能 查 到 的 有 关 无 线 传感器 网 络 入 
侵 检 测 的 文献 近 500 余 篇 。 典 型 的 方法 和 技术 主要 有 流量 预测 *' 沁 、 基 于 安全 协议 的 入侵 
检测 系统 中 、 异 常 检测 * 中 相似 观测 结果 分 组 "检测 接收 功率 异常 "9 移动 代 理 " 中 、 马 
尔 可 夫 线 性 预测 "9 ,支持 向 量 机 * 趾 \ 误 用 检测 "9 .协同 防御 "9 、 组 合 粒子 群 优化 和 径 向 基 
函数 5 p Hy Sea gael “判断 接收 信号 强度 值 "、 危 险 理论 中 、 散 列 预测 5 、 蚁 群 优化 59、 
核 Fisher 判别 分 析 ""、 局 部 联系 对 比 搜索 中、 基于 区 域 的 节点 欺骗 检测 中 、 计 数 器 对 称 加 
qua, 

然而 ,运行 人 侵 检 测 系统 本 身 就 需要 较 多 的 计算 资源 , 面 对 无 线 传感器 网 络 节点 资源 有 
限 的 现状 ,如 何 真 正 地 将 入 侵 检 测 系统 应 用 到 无 线 传 感 器 网 络 是 一 个 很 有 挑战 性 的 问题 。 
近年 来 ,博弈 论 为 人 侵 检 测 的 研究 提供 了 新 颖 的 思路 。 将 博弈 论 应 用 于 入 侵 检 测 领域 ,可 以 
在 人 侵 者 和 入 侵 检测 系统 之 间 建 立 利益 冲突 的 数学 模型 ,在 考虑 有 限 资 源 的 基础 上 权衡 不 
同 策略 带 来 的 开销 ,对 入 侵 检测 系统 进行 是 否 启 动 的 决策 ,从 而 提高 入 侵 检测 系统 的 效率 。 

当前 ,已 有 多 种 博弈 类 型 被 用 于 包括 无 线 传感器 网 络 在 内 的 不 同 网 络 环境 下 的 人 侵 检 
测 研究 , 主要 包括 非 合作 完全 信息 静态 博弈 C*2 9 5、 重复 博弈 5 989. pr np Mg pi 
FRAT 891) ,但 研究 何 时 启动 人 侵 检测 系统 的 文献 并 不 多 见 。 

Liang 和 Xiaop5 分 别 从 非 合 作 博弈 和 合作 博弈 角度 综述 了 博弈 论 在 网 络 安全 中 的 应 
用 。Manshaei 等 人 9 分 别 在 物理 层 安全 、 自 组 织 网 络 安 全 、 信 侵 检测 系统 、 隐 私 保护 、 网 络 
安全 经 济 学 ,密码 学 6 个 领域 综述 了 博弈 论 的 应 用 。 作 者 等 人 "3 综述 了 博弈 论 在 无 线 传 感 
器 网 络 安全 方面 的 应 用 ,其 中 包括 无 线 传感器 网 络 人 侵 检 测 领 域 。Javidi 和 
Aliahmadipour' 呆 综述 了 如 何 应 用 博弈 论 改善 Ad Hoc 网 络 中 的 入 侵 检 测 系 统 。 

周 四 清 等 人 5 唤 提 出 的 无 线 传感器 网 络 人 侵 检 测 重复 博弈 模型 被 用 于 检测 和 响应 传 感 
器 节点 的 自私 行为 以 加 强 网 络 节点 的 协作 性 能 .利用 传感器 节点 与 其 邻居 节点 进行 的 重复 
博弈 过 程 , 广 播 传感器 节点 的 效用 值 ,从 而 即时 检测 出 无 线 传感器 网 络 节点 的 自私 行为 。 并 
引入 惩戒 机 制 惩 罚 无 线 传感器 网 络 节点 的 自私 行为 ,从 而 大 大 降低 了 传感器 节点 背离 合作 
的 可 能 性 。 李 奕 男 等 人 中 3 将 非 合 作 完 全 信息 静态 博弈 引入 到 Ad Hoc 网 络 的 入 侵 检测 系 
统 中 ,建立 了 入 侵 检 测 博弈 模型 并 得 到 了 该 模型 的 纳什 均衡 解 。 该 模型 能 有 效 提高 入 侵 检 
测 率 ,降低 误 检 率 且 网 络 开 销 较 小 。 石 进 等 人 "利用 非 合 作 完 全 信息 静态 博弈 处 理 入 侵 检 
测 系统 响应 的 收益 及 攻击 者 策略 变化 等 问题 ,提出 了 一 种 动态 人 侵 响应 模型 ,得 到 了 稳定 、 
可 靠 的 最 优 解 。 陈 行 和 陶 军 5 应 用 贝 叶 斯 博弈 研究 无 线 网 络 中 人 侵 检测 参数 调整 问题 , 根 
据 入 侵 检测 博弈 模型 中 的 完美 均衡 设计 了 入 侵 检测 时 间 间 隔 调 整 算法 和 参数 修正 算法 ,这 
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些 算法 有 效 地 帮助 无 线 网 络 入 侵 检测 系统 检测 出 发 生变 化 的 恶意 攻击 行为 。 王 静 等 人 "” 
将 基于 贝 叶 斯 博弈 并 结合 节点 激励 机 制 的 入 侵 检测 模型 运用 于 一 种 改进 的 安全 路 由 协议 ， 
有 效 地 抑制 了 节点 的 自私 行为 。 严 辉 等 人 "利用 重复 博弈 提出 了 一 种 适用 于 Ad Hoc 网 
络 的 入 侵 攻 击 预测 模型 。 通 过 建立 入侵 检测 系统 和 入 侵 攻 击 者 之 间 的 博弈 模型 ,计算 阶段 
博弈 的 经 典 纳什 均衡 ,并 得 到 了 重复 博弈 情况 下 的 子 博弈 精炼 纳什 均衡 ,再 使 用 最 优 反 应 均 
衡 模型 预测 人 侵 攻 击 者 和 入 侵 检 测 系统 在 博弈 阶段 中 选择 不 同 策略 的 概率 。 赵 柳 榨 等 
人 59 将 博弈 论 用 于 建立 虚拟 专用 网 VPN) 和 入侵 检测 系统 的 信息 安全 技术 组 合 模型 ,从 而 
为 阻止 黑客 人 侵 和 降低 信息 安全 技术 配置 成 本 提供 优化 策略 。Chen 和 Leneutre™™ 利用 非 
合作 完全 信息 静态 博弈 建立 拥塞 攻击 者 和 受 攻击 网 络 之 间 的 模型 , 当 达 到 纳什 均衡 时 ,实现 
通过 增加 拥塞 攻击 者 的 能 量 消耗 促使 其 快速 死亡 的 防范 策略 。 在 Huang 等 人 中 提出 的 马 
尔 可 夫 IDSCMarkovian IDS) rp ,将 非 合作 完全 信息 静态 博弈 与 异常 和 误 用 检测 相 结合 用 于 
确定 最 佳 的 防护 策略 。Chen 和 Leneutre" 将 利用 非 合作 完全 信息 静态 博弈 得 到 的 理性 攻 
击 者 和 入 侵 检测 系统 的 最 优 策略 用 于 入 侵 检 测 系统 的 设计 和 部 署 中 。Kantzavelou 和 
Katsikas555 利 用 重复 博弈 建立 内 部 攻击 和 入 侵 检测 系统 之 间 的 博弈 模型 ,将 一 般 的 纳什 均 
衡 扩 展 到 随机 最 优 反应 均衡 (Quantal Responsse Equilibrium) 来 预测 内 部 攻击 者 的 行为 。 
Zhu 等 人 5 利用 动态 贝 叶 斯 博弈 建立 了 一 个 动态 人 侵 检测 自动 响应 系统 ,为 人 侵 检测 系统 
的 配置 提供 了 最 优 的 配置 方案 。Rafsanjani 等 人 5 将 贝 叶 斯 博弈 用 于 确定 何 时 启动 人 侵 检 
测 系统 的 阔 值 ,一 旦 攻击 概率 超过 该 阔 值 ,将 启动 节点 上 的 IDS 服务 。Bedi ^$ AP? 38 p 6 
论 用 于 分 布 式 拒绝 服务 攻击 领域 ,为 防御 者 在 如 何 设置 防火 墙 方面 提供 优化 策略 ,以便 有 效 
阻止 恶意 数据 流 和 保证 正常 数据 流 的 通过 。Shamshirband 等 人 5 建立 了 包含 Sink 节点 、 
基站 攻击 者 3 个 参与 者 的 策略 博弈 模型 , 当 无 线 传感器 网 络 某 节 点 流量 超过 限定 的 阔 值 时 
启动 该 模型 ,再 利用 合作 博弈 和 模糊 Q-learning 算法 为 Sink 节点 和 基站 合作 防御 拒绝 服务 
攻击 提供 了 优化 策略 。Moosavi 和 Bui" f] I" ERAR Se 4- fi E Bt BL PEE " CNonzero-sum 
Discounted Stochastic Games with Incomplete Information) 分 析 无 线 传感器 网 络 中 的 入 侵 
检测 问题 ,在 参与 者 信息 不 确定 的 情况 下 给 出 了 一 种 鲁 棒 的 优化 防御 策略 。 而 Zonouz 等 
人 中 利用 模糊 逻辑 理论 (Fuzzy Logic Theory) 分 析 网 络 级 安全 事件 的 基础 上 ,采用 “斯 塔 
克 尔 伯 格 随机 博弈 ”(Stackelberg Stochastic Game) 得 到 了 优化 的 入 侵 响 应 策略 。 

信号 博弈 在 无 线 网 络 领 域 已 有 一 些 应 用 。 刘 玉 枚 等 人 "中 利用 信和 号 博弈 解决 P2P 网 络 
系统 资源 交易 中 存在 的 不 完全 信息 问题 ,提出 了 一 种 资源 定价 机 制 。 通 过 建立 信号 博弈 模 
型 模拟 信息 的 不 完全 性 ,使 得 系统 资源 的 需求 者 能 区 分 所 需 资源 质量 ,并 通过 引入 一 种 调价 
机 制 实 现 资源 价格 调整 。 陈 亚 害 等 人 "中 针对 云 计 算 环 境 下 如 何 确定 不 可 信 云 终端 用 户 并 
合理 分 析 云 用 户 的 异常 行为 问题 ,提出 了 一 种 基于 信号 博弈 的 用 户 行为 模型 ,在 考虑 入 侵 检 
测 系统 存在 误 报 和 漏 报 的 情况 下 ,利用 "多 阶段 博弈 ?分析 云 终端 用 户 的 类 型 ,结合 用 户 的 当 
前 行动 和 历史 行动 ,实现 准确 地 推断 云 终端 用 户 类 型 ,为 主动 安全 机 制 提 供 了 理论 基础 。 
Patcha 和 Park"? fe Xt T 3: Lf] Ad Hoc 网 络 入 侵 检测 系统 中 利用 信号 博弈 建立 博弈 模 
型 ,但 未 深入 研究 该 模型 的 特性 ,如 模型 是 否 存在 均衡 点 等 。Wang 等 人 中 研究 无 线 传 感 
器 网 络 中 恶意 节点 和 正常 节点 之 间 的 共存 问题 。 实 际 上 ,即使 一 个 恶意 传感器 节点 已 被 准 
确 检测 ,但 也 许 它 自身 并 不 知道 已 被 列 人 恶意 节点 ,因此 它 可 能 通过 伪装 自己 的 方法 表现 出 
正常 节点 的 功能 。 这 样 ,这 种 恶意 节点 仍旧 可 以 被 保留 并 使 用 ,从 而 为 恶意 节点 和 正常 节点 
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都 能 带 来 收益 。 在 这 样 的 背景 下 ,他 们 提出 利用 信号 博弈 建立 恶意 节点 的 检测 模型 ,并 得 到 
了 模型 的 纯 策 略 和 混合 策略 纳什 均衡 。 随 着 博弈 的 持续 ,他 们 根据 贝 叶 斯 规则 进行 “推断 ” 
值 的 更 新 ,并 证 明了 这 个 动态 的 恶意 节点 检测 博弈 模型 具有 完美 贝 叶 斯 均衡 。Estiri 和 
Khademzadeh™ "针对 无 线 传感器 网 络 中 的 丢 包 攻击 ,利用 信号 博弈 建立 攻击 者 和 节点 之 间 
的 博弈 模型 ,将 攻击 者 和 节点 之 间 的 交互 关系 通过 不 完全 信息 动态 博弈 进行 描述 ,证 明了 该 
模型 存在 完美 贝 叶 斯 均衡 ,同时 ,说 明了 达到 均衡 点 即 得 到 了 优化 的 防御 策略 。Li SA 
利用 不 完全 信息 动态 博弈 分 析 Ad Hoc 网 络 正常 节点 和 恶意 节点 之 间 的 交互 关系 并 建立 了 
相应 的 博弈 模型 。 其 中 正常 节点 根据 对 手 的 行为 更 新 自己 的 “推断 ” 值 ,给 出 是 否 报告 恶意 
节点 的 理性 决策 。 另 一 方面 ,恶意 节点 通过 评估 自己 被 捕获 的 风险 来 决定 何 时 逃离 以 避免 
被 惩罚 的 策略 。Maia 等 人 中 针对 延迟 容忍 网 络 中 大 多 数 路 由 协议 未 考虑 能 量 消耗 的 情 
况 ,利用 信号 博弈 建立 了 多 路 数据 转发 模型 ,给 出 了 基于 目标 节点 累积 能 耗 的 路 由 优化 策 
略 。Paramasivan 等 人 中 利用 信号 博弈 分 析 正 常 和 恶意 节点 的 行为 ,通过 使 用 完美 贝 叶 斯 
均衡 (Perfect Bayesian Equilibrium) 策 略 ,最 小 化 了 恶意 节点 的 收益 ,促进 了 正常 节点 的 相 
HAW. 
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理 " 之 间 的 博弈 模型 ,并 通过 计算 得 到 “阶段 人 侵 检 测 博弈 ”的 纯 策 略 和 混合 策略 贝 叶 斯 均衡 
以 及 “多 阶段 动态 人 侵 检测 博弈 "的 混合 策略 完美 贝 叶 斯 均衡 ,这 些 均 衡 将 为 簇 头 人 侵 检测 
代理 ”给 出 何 时 选择 动作 Defend 的 最 优 策略 。 本 章 思想 部 分 来 自 文献 L[104] 中 的 恶意 传 感 
器 节点 检测 博弈 模型 ,但 在 构建 博弈 的 支付 矩阵 时 ,本 章 考虑 了 入 侵 检测 系统 的 检测 率 和 误 
报 率 , 而 他 们 5 考虑 的 是 通道 的 不 可 靠 性 和 恶意 传感器 节点 成 功 攻击 的 概率 。 因 此 ,与 文 
献 [104] 相 比较 ,本 章 得 到 了 不 同 的 均衡 结果 。 另 外 ,本 章 内 容 集中 于 利用 信和 号 博弈 决定 无 
线 传感器 网 络 人 侵 检测 系统 何 时 启动 的 策略 问题 ,而 上 述 相关 工作 大 都 研究 的 是 Ad Hoc 
网 络 环境 。 最 后 ,本 章 使 用 与 上 述 相关 工作 不 同 的 网 络 模型 ,将 入 侵 检测 代理 驻 留 在 每 个 传 
感 器 节点 上 ,但 仅 有 得 头 上 的 和 人 侵 检测 代理 根据 信号 博弈 结果 进行 启动 ,这 种 网 络 模型 非常 
有 利于 无 线 传感器 网 络 的 能 量 节 省 。 


3.3 无 线 传感器 网 络 入 侵 检 测 博弈 模型 


3.3.1 网 络 模 型 


根据 入 侵 检 测 系统 代理 的 安装 位 置 ,Farooqi 等 人 中 将 无 线 传感器 网 络 入 侵 检测 系统 
分 为 三 类 : 纯 分 布 式 (Purely Distributed) 、 纯 集中 式 (Purely Centralized) 和 分 布 一 集中 混 
合式 (Distributed-centralized) 。 在 纯 分 布 式 无 线 传感器 网 络 人 侵 检 测 系 统 中 ,入 侵 检 测 代 
理 被 安装 于 每 个 传感器 节点 并 在 本 地 检查 相 邻 传感器 节点 的 恶意 行为 。 而 在 纯 集 中 式 网 络 
结构 中 ,和 人 侵 检测 代理 被 安装 于 基站 (Base Station) 上 ,这 种 结构 常 需要 额外 的 路 由 协议 用 
来 收集 传感器 节点 的 数据 信息 并 以 此 分 析 传 感 器 节点 的 行为 。 由 于 采用 聚 徐 结 构 的 无 线 传 
感 器 网 络 具有 能 耗 和 控制 负荷 低 的 特点 .为 适应 这 种 网 络 结构 ,分 布 一 集中 混合 式 被 引入 进 
来 ,这 种 方式 将 人 侵 检 测 代理 仅 安装 在 “监控 传感器 节点 "(Monitor Sensor Node) 上 ,而 “ 监 
控 传感器 节点 " 除 执行 人 侵 检测 外 .还 具有 与 正常 节点 一 样 的 转发 数据 功能 。 
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本 章 采用 的 无 线 传感器 网 络 人 侵 检测 系统 网 络 结构 属于 分 布 一 集中 混合 式 。 但 与 人 侵 
检测 代理 仅 被 安装 在 "监控 传感器 节点 "上 的 情况 不 同 , 在 本 章 采 用 的 网 络 结构 中 ,所 有 传 感 
器 节点 都 已 部 署 人 侵 检测 代理 。 与 此 同时 ,因为 采用 聚 徐 (Clustering) 技 术 能 显著 改善 网 络 
生存 期 ,所 以 本 章 将 聚 秘技 术 用 于 无 线 传感器 网 络 以 便 形成 相互 连接 的 层次 结构 。 通 
过 采用 这 种 聚 秘技 术 , 所 有 的 传感器 节点 都 被 分 配 到 不 同 的 簇 中 。 每 个 簇 都 有 一 个 称 为 化 
3k (Cluster Head, CH) 的 协调 者 和 一 些 “ 成 员 传 感 器 节点 "。 所 有 的 簇 头 形成 层次 结构 中 的 
高 层 节点 ,而 所 有 的 “成 员 传 感 器 节点 "组 成 了 低层 节点 。 在 这 样 的 层次 结构 中 ,“ 成 员 传 感 
aie ek” BESE" Be FE HE Sk” (Responsible CH) 发 送 数 据 ,“ 责 任 簇 头 ”汇聚 数据 并 通过 其 他 的 簇 
头 将 数据 传输 到 基站 。 为 了 平衡 簇 头 传感器 节点 的 能 量 消耗 ,该 节点 经 常 需要 定期 更 新 。 
与 无 线 传感器 网 络 中 的 平面 结构 (Flat Architecture) 相 比 , 这 种 聚 簇 结构 在 减少 能 量 消耗 和 
降低 通道 碰撞 方面 具有 显著 的 优点 。 当 一 个 能 量 充沛 的 传感器 节点 被 选中 作为 一 个 簇 头 
时 , 驻 留 在 秘 关 上 的 入 侵 检 测 代 理 将 被 同时 启动 ,而 处 于 “成 员 传 感 器 节点 "上 的 入 侵 检 测 代 
理 将 处 于 休眠 状态 。 因 此 , 簇 头 除 汇聚 和 发 送 数据 外 ,还 有 入 侵 检测 的 功能 。 图 3-1 给 出 了 
本 章 的 网 络 模型 。 
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A 基站 
图 3-1 无 线 传感器 网 络 人 侵 检 测 网 络 模型 


在 图 3-1 中 ,合法 的 传感器 节点 包括 簇 头 和 基站 。“ 成 员 传感器 节点 "的 类 型 可 能 是 正 
常 或 恶意 的 。 这 些 "“ 成 员 传感器 节点 ”知道 它们 自己 的 类 型 ,但 簇 头 不 知道 与 它 处 于 相同 得 
内 的 “成 员 传感器 节点 ?类 型 。 为 适应 这 种 网 络 环境 ,本 章 将 采用 信号 博弈 来 描述 "恶意 成 员 
传感器 节点 ”的 检测 过 程 。 当 一 个 信和 号 博弈 被 重复 进行 时 , 它 可 以 被 分 为 连续 而 独立 的 阶 
段 ,在 每 个 阶段 "成 员 传感器 节点 ”和 ”得 头 人 侵 检测 代理 "进行 博弈 的 模型 称 为 “阶段 人 侵 检 
测 博弈 ”。 


3.3.2 ”阶段 入 侵 检 测 博弈 模型 


定义 3-1 “阶段 人 侵 检测 博弈 "是 一 个 五 元 组 CE — (ON .9.,A,P,U), 其 中 : 

。 NN 二 (“成 员 传感器 节点 ”S,“ 簇 头 入 侵 检 测 代 理 ”R} 是 一 个 包含 两 个 参与 者 的 集合 。 

* 0 一 8s X 0r. 其 中 Bs 二 (0s 二 0,0s 王 1) 是 “成 员 传感器 节点 "S 的 类 型 空间 ,Br 二 {0k} 
是 “ 奥 头 人 侵 检测 代理 ?R 的 类 型 空间 。 

* A 二 AsXAr, HP As=(As(0s=0), As(bs 王 1) } 一 ({(as(0s 一 0)| Cooperate}, {as 
(@s=1)| Attack，Cooperate}} 是 “成 员 传感器 节点 ”S 可 用 的 动作 集合 ,Ag 一 {aRl 
Defend. Idle) Æ“ K A G Eri (CHR 可 用 的 动作 集合 。 

。P:9r=[0,1] 是 关于 ”成 员 传感器 节点 ”S 的 推断 ( 先 验 概率 ) .P=(p. 1 一 p), 其 中 ， 
b 表示 “恶意 成 员 传感器 节点 ”"(Malicious Member Sensor Node) 的 概率 ,而 1 一 p 3€ 
示 “ 正 常 成 员 传感器 节点 ”(Normal Member Sensor Node) 的 概率 。 
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* U=((ussur)}. HEP, us: AXOR 是 “成 员 传感器 节点 ”S 的 支付 函数 ,ur:AX 
gor 是 “得 头 人 侵 检测 代理 ?R 的 支付 函数 ,us 和 wr 的 支付 值 如 表 3-1 所 示 。 


表 3-1 “阶段 入 侵 检测 博弈 "的 支付 矩阵 
G0 “成员 传 感 器 节点 "S 是 恶意 节点 


ar 
Defend Idle 
as 
Attack (l—a)ga—ago— ca» agp — (l—a)ga— co SA 一 cA， 一 SA 
Cooperate gc 一 cc， 一 Br 一 cp gc 一 cc，0 
(b) “成 员 传感器 节点 "S 是 正常 节点 
ag 
Defend Idle 
as 
Cooperate gc 一 cc， 一 BF 一 cp gc 一 cc 0 


为 反映 无 线 传感器 网 络 和 入 侵 检测 系统 的 特性 ,本 章 为 “阶段 人 侵 检 测 博弈 ”模型 选择 
了 一 些 特定 的 参数 , 当 * 恶 意 成 员 传感器 节点 "试图 攻击 无 线 传感器 网 络 从 而 浪费 其 资源 时 ， 
将 影响 无 线 传感器 网 络 的 正常 运行 ,造成 相 邻 节点 通信 的 瘫痪 ,这 个 攻击 过 程 将 给 “恶意 成 
员 传 感 器 节点 " 带 来 收益 ,然而 ,它们 也 必须 付出 相应 的 成 本 用 以 支付 它们 的 攻击 。 因 此 ,对 
一 个 "恶意 成 员 传感器 节点 ”而 言 , 本 章 引入 ga 和 ca 来 分 别 表示 攻击 收益 和 成 本 。 当 一 个 
“成 员 传感器 节点 "选择 动作 Cooperate 时 ,意味 着 该 节点 能 正常 进行 通信 ,也 就 是 说 ,数据 
包 能 够 被 顺利 地 转发 。 这 样 ,“ 正 常 成 员 传 感 器 节点 "将 从 具有 良好 通信 保障 的 无 线 传感器 
网 络 中 获取 收益 ,而 "恶意 成 员 传 感 器 节点 "也 将 从 它 的 伪装 过 程 中 获取 收益 。 然 而 ,在 合作 
过 程 ( 即 选择 动作 Cooperate) 中 ,接收 和 转发 数据 包 都 会 消耗 传感器 节点 的 能 量 。 为 了 简单 
起 见 ,本 章 假设 "恶意 成 员 传感器 节点 ”和 ”正常 成 员 传感器 节点 "将 得 到 相同 的 收益 和 付出 
相同 的 成 本 。 因 此 ,对 一 个 "成 员 传感器 节点 "而 言 ' 本 章 引 入 gc 和 cc 分 别 表示 选择 动作 
Cooperate 的 收益 和 成 本 。 当 “ 簇 头 入 侵 检测 代理 ”选择 动作 Defend 时 , 它 将 获得 收益 gp. 
这 是 因为 它 成 功 地 检测 到 了 “恶意 成 员 传 感 器 节点 ”。 与 此 同时 ,“ 艇 头 入 侵 检 测 代 理 ” 必 须 
付出 相应 的 成 本 co 用 于 支付 能 量 的 消耗 。 显 然 ,与 普通 计算 机 网 络 中 的 入 侵 检 测 系 统 类 
似 ,“ 簇 头 入 侵 检测 代理 "中 也 存在 检测 率 和 误 报 率 ,本 章 分 别 用 a FAB 表示 。 其 中 ,存在 误 
报 率 意味 着 “成 员 传感器 节点 ”可 能 会 在 正常 的 通信 中 被 误 认为 恶意 节点 ,这 对 “ 簇 头 入 侵 检 
测 代 理 ” 而 言 将 造成 损失 lro 

在 定义 3-1 给 出 的 “阶段 入 侵 检 测 博 弈 "模型 中 ,总 共有 两 个 参与 者 ,包括 用 0s 表 示 的 
“成 员 传感器 节点 ”S( 发 送 者 ) 和 用 9k 表示 的 “ 簇 尖 入 侵 检 测 代理 ”R( 接 收 者 )。“ 成 员 传 感 器 
节点 ”S 可 能 是 正常 的 也 可 能 是 恶意 的 ,分 别 用 0s 二 0 RI Os = 1 表示 ,这 些 类 型 信息 对 “ 簇 头 
和 人 侵 检测 代理 ”R 而 言 都 是 私有 信息 。 在 每 个 阶段 ,每 个 参与 者 从 它 的 动作 空间 中 选择 自己 
的 动作 , 当 “ 成 员 传感器 节点 ”S 是 恶意 时 , 它 可 能 采取 攻击 或 合作 行为 ,采取 合作 是 因为 它 
想 伪装 自己 以 避免 被 监测 到 ,也 就 是 说 ,传感器 节点 类 型 gs 一 1 采取 的 动作 as(bs 一 1) 可 能 
是 Attack 或 者 Cooperate。 而 当 " 成 员 传感器 节点 ”S 是 正常 节点 时 , 它 总 是 选择 合作 的 行 
为 ,也 就 是 说 ,类 型 Os=0 的 动作 as(0s 一 0) 总 是 Cooperate。 因 此 ”成员 传感器 节点 ”S 的 动 
作 空 间 As(0s) 可 以 表示 为 {Attack. Cooperate)。 为 了 节省 簇 头 节点 的 能 量 以 便 获得 较 长 
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的 生存 期 ,“ 秘 头 人 侵 检测 代理 ” 尺 不 应 该 总 是 选择 动作 Defend, 也 就 是 说 ,有 时 它 应 该 选择 
动作 Idle。 这 样 传感器 节点 类 型 ge 采取 的 动作 ag(bn) 可 能 是 Defend zk Idle. Alt. “ie 
入 侵 检测 代理 ”R 的 动作 空间 是 {Defend, Idle), X 3-1 给 出 了 “阶段 入 侵 检测 博弈 "的 支付 
和 矩阵。 

在 表 3-1 中 ,除了 动作 Idle 外 ,都 将 产生 成 本 。 对 于 "动作 对 ”(as(bs 一 1) 一 Attack， 
as (Or) — Defend) ifii 71 . f J& d 15 63 2878 0s — 1 的 支付 等 于 未 被 检测 到 时 的 收益 减 去 被 检测 
到 时 的 损失 再 减 去 攻击 的 成 本 ,而 传感器 节点 类 型 名 的 支付 等 于 成 功 检 测 到 恶意 节点 的 收 
益 减 去 未 检测 到 恶意 节点 的 损失 再 减 去 检测 的 成 本 。 对 “动作 对 ”(as(0s 王 1) = Attack. 
as (Or) = Idle) ifii FF « FERAE 15 63 23899 05 —1 的 支付 等 于 攻击 获得 的 收益 减 去 攻击 的 成 本 ,而 
传感器 节点 类 型 9 的 支付 等 于 被 恶意 节点 攻击 造成 的 损失 。 对 “动作 对 ”(as (Os = 1) = 
Cooperate. ag (Or) 二 Defend) 而 言 ,传感器 节点 类 型 05— 1 的 支付 等 于 合作 的 收益 减 去 合作 
的 成 本 ,而 传感器 节点 类 型 9r 的 支付 等 于 误 报 造成 的 损失 减 去 采取 动作 Defend 的 成 本 。 
至 于 其 他 的 “动作 对 ?所 产生 的 支付 应 该 容易 理解 ,在 此 不 再 袭 述 。 


3.3.3 “阶段 入 侵 检 测 博弈 ”的 均衡 


作为 一 种 不 完全 信息 动态 博弈 类 型 “阶段 人 侵 检测 博弈 ”中 的 “ 簇 头 人 侵 检 测 代理 " 尺 
虽然 不 知道 “成员 传 感 器 节点 ”S 的 类 型 ,但 这 种 博弈 模型 仍 能 得 到 纯 策略 和 混合 策略 贝 叶 
斯 均衡 。 当 然 ,要 得 到 这 些 均衡 ,首先 需要 通过 海 萨 尼 转 换 将 “阶段 入 侵 检测 博弈 "转化 为 完 
全 但 不 完美 信息 动态 博弈 。 在 转化 时 ,根据 不 完全 信息 动态 博弈 的 时 间 顺 序 ,一 个 虚拟 的 参 
与 者 “自然 "(Nature) 被 引入 进来 ,这 个 “自然 ”将 首先 行动 并 以 一 定 的 概率 确定 “成 员 传 感 器 
节点 ”S 的 类 型 。 图 3-2 给 出 了 转换 后 的 “阶段 人 侵 检测 博弈 ”的 扩展 式 。 


(&A-cA, -8A) (gc-ce: -BF-cp) Cecrcc' -Plcp) 


(Cl a)g4-Ggp-C4. &gp-(1—9)g4-cp) (gc-cc. 0) (gc-ec. 0) 


图 3-2 “阶段 人 侵 检测 博弈 的 扩展 式 


定理 3-1 当 p<<(Bls 十 cp)/(ago 十 aga 十 Bl) 成 立时 ,“ 阶 段 入 侵 检测 博 弃 "存在 纯 策略 
贝 叶 斯 均衡 。 

证 明 (1)“ 成 员 传感器 节点 ”S 选择 纯 策 略 (as(bs 一 1) 一 Attack，as(bs 一 0) = 
Cooperate) 。 这 种 情况 意味 着 当 "* 成 员 传感器 节点 ”S 属于 恶意 节点 时 ,总 是 选择 动作 
Attack ,而 属于 正常 节点 时 总 是 选择 动作 Cooperate, FAIL. P S ARR ERE R 而 言 ， 
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选择 Defend fil Idle 的 期 望 收 益 分 别 是 
Eun (Defend) plago — (1—a) ga — c») + ( — p) C— flr — co) (3-1) 


All 


Eur (idle) pga +(1— p) +0 =— pga (3-2) 
如 果 Eur (Defend) >Eur (Idle) ,也 就 是 说 
D(agp— (1 —a)ga — cp) 4- (1— p) C— Blr — co) >— pg a 


即 

b Z (Blr +co)/ lago Haga + Bl e) (3-3) 
WBA" HES AZEMAR” R 的 最 优 策略 是 采取 动作 Defend. £A iii. 24 " HE A B AR” 
R 选择 动作 Defend 时 ,Attack 将 不 再 是 “成 员 传感器 节点 ”S 的 最 优 动作 ,这 是 因为 不 等 式 

(1—a)0ga4 — agp — ca < gc — cc (3-4) 
Tig sr. AE, {Cass — 1) = Attack. as(0s —0) — Cooperate), ag (0g) = Defend) 48 fe" [fr 
段 人 侵 检测 博弈 ”的 一 个 纯 策略 贝 叶 斯 均衡 。 

如 果 Eur Defend) — Eur (dle) ,也 就 是 说 

P < (Br 十 cp)/(agp 十 cgA 十 Br) (3-5) 
成 立时 ,“ 簇 头 入 侵 检 测 代 理 ”R 的 最 优 策略 是 采取 动作 Idle。 相 应 地 ,Attack 将 成 为 "成员 
传感器 节点 ”S 的 最 优 动作 ,这 是 因为 不 等 式 

ga—ca > 1—-a@ga—agp—ca (3-6) 
恒 成 立 。 因 此 ,{(as(b 一 1) 一 Attack,， as(0s—0) — Cooperate) , ar (Ox) — Idle) J&" Br Bt A 3 
检测 博弈 ”的 一 个 纯 策 略 贝 叶 斯 均衡 。 

(2) “成员 传 感 器 节点 ”S 选择 纯 策 略 Cas (bs = 1) = Cooperate. as (0s 一 0) = 
Cooperate). 。 这 种 情况 意味 着 不 管 “ 成 员 传感器 节点 ”S 是 何 种 类 型 它 总 是 选择 动作 
Cooperate, "HE A FERTIL BER 而 言 ,针对 “成 员 传 感 器 节点 ”S 的 动作 Cooperate 的 
最 优 响 应 是 选择 动作 Idle, 而 对 于 “恶意 成 员 传 感 器 节点 "0s 二 1 而 言 ,针对 “ 簇 尖 入 侵 检 测 代 
FR 的 动作 Idle 的 最 优 响 应 是 选择 动作 Attack。 这 样 与 纯 策 略 (as(bs 一 1) 一 Cooperate， 
as(0s 一 0) 一 Cooperate) 相 互 矛 盾 , 因 此 ,{((as(0s 王 1) 一 Cooperate, as(0s 一 0) 一 Cooperate) . 
ar(0r) 二 Idle) 不 是 “阶段 人 侵 检测 博弈 ?的 一 个 纯 策略 贝 叶 斯 均衡 。 

综 上 所 述 , 当 


p< (Ble +cp)/(agn +aga + flr) (3-7) 

成 立时 ,“ 阶 篡 入 侵 检 测 博 弈 "存在 纯 策略 贝 叶 斯 均衡 ((as (Os = 1) = Attack. as(0s=0)= 
Cooperate). ag (Ok) 二 Idle)。 这 意味 着 “恶意 成 员 传 感 器 节点 ”总 是 会 选择 动作 Attack Jf AL 
“正常 成 员 传感器 节点 "总 是 选择 动作 Cooperate. Ti " f 3k A FER WI CBE" R 总 是 选择 动作 
Idle。 证 毕 。 

虽然 “阶段 人 侵 检测 博弈 ?存在 纯 策 略 贝 叶 斯 均衡 ,但 这 与 实际 的 防御 要 求 不 符 , 因 为 根 
据 定理 3-1,“ 簇 头 和 信 侵 检 测 代理 ”R 总 是 选择 动作 Idle, 这 就 是 说 ,恶意 成 员 传感器 节点 "了 永 
远 不 会 被 捕获 。 因 此 仅 得 到 纯 策 略 贝 叶 斯 均衡 对 “入 侵 检测 博弈 "是 不 够 的 ,必须 要 找到 能 
用 于 检测 恶意 传感器 节点 的 混合 策略 贝 叶 斯 均衡 。 

定理 3-2 ZIF p 宇 (Ble 十 cp)/(agp 十 aga 十 Ble) 成 立时 “阶段 入 侵 检测 博弈 "存在 混 
合 策略 贝 叶 斯 均衡 。 
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WEB] 显然 ,由 定理 3-1, 只 有 条 件 p 宇 (BlF 十 cp)/ (agp 十 aga 十 BlF) 成 立时 ,“ 阶 段 人 侵 
检测 博弈 " 才 有 可 能 存在 混合 策略 贝 叶 斯 均衡 。 
设 * 恶 意 成 员 传感器 节点 "ps 一 1 的 混合 策略 为 mw 一 (p:1 一 p) ,其 中 ,p 表示 "恶意 成 员 伟 
感 器 节点 ?采取 动作 Attack 的 概率 。 那 么 ,“ 簇 头 入 侵 检 测 代 理 ”R 采取 动作 Defend 和 Idle 
的 期 望 收益 分 别 是 
Eur(Defend) =pp (agp — (1 — a) ga — cp) 
+ (1—p)p(— flr — co) + (1— p)(— flr — co) (3-8) 


All 


Eup (Idle) = pp(— ga) -- (1 —p) * p+ 0+ (1 — p) +0 =—ppga (3-9) 
在 “恶意 成 员 传感器 节点 ”0s 二 1 采取 最 优 混合 策略 cs THE F, h Rk ARWR 采 
取 动 作 Defend 和 Idle 的 无 差异 性 (Indifference) 可 以 得 到 
Eur (Defend) = Eur (Idle) (3-10) 
VALE ES AE RRR 的 最 优 混合 策略 为 
p= a ae bod 
Be“ ABE A BEEN CREER. 的 混合 策略 为 cg 一 (06,1 一 9) ,其 中 ,9 ER" HE A BUE LIC 
HR 采取 动作 Defend 的 概率 。 那 么 ,成 员 传感器 节点 "采取 动作 Attack 和 Cooperate 的 
期 望 收益 分 别 是 
Eus(Attack) = ôp((1—a)ga — agp — ca) + (1—0) p(ga — ca) (3-12) 


和 


Eus(Cooperate) =dp( gc — cc) + (1 — ò) plge — cc) 
tÈ — p)(ge — cc) -(1— 00(1 — p) (ge — cc) (3-13) 
TEBE A 2 RM RR 采取 最 优 混合 策略 oR 的 情况 下 ,由 ”成 员 传感器 节点 ”S 采取 动作 
Attack 和 Cooperate 的 无 差异 性 可 以 得 到 


Eus(Attack) = Eus(Cooperate) (3-14) 
DS He J.P. Pr Jd 5 ex" S 的 最 优 混合 策略 为 
人 — PRA — [cA — gc t cc (3-15) 


Plaga Hago) 


综 上 所 述 , 当 条 件 po Bit oan sy mp «e BLA CON II T E — ARA 
agp-Faga lr 


贝 叶 斯 均衡 (cs Cas(0s— 1) — Attack. as(05—0) — Cooperate) . ok (ag (Og) — DefendD) ) 。“ 阶 
BEA BUE RAE" FE T AER E AR UL Ir L5] EE HES AE RTM ACR ERS ORC 
动作 Defend 时 ， 恶 意 成 员 传感器 节点 "将 以 概率 o^ 采取 动作 Attack 而 “正常 成 员 传感器 
节点 "总 是 选择 动作 Cooperate。 证 毕 。 

根据 定理 3-1 和 定理 3-2, 当 “阶段 人 侵 检测 博弈 ?达到 贝 叶 斯 均衡 时 ， 成 员 传感器 节 
点 ”S 和 “ 簇 关 入 侵 检测 代理 ”R 在 不 同 的 概率 p 下 都 能 选择 它们 各 自 不 同 的 优化 策略 。 从 
中 可 以 看 出 ,概率 p 实际 上 与 “ 簇 头 入侵 检测 代理 ”的 检测 率 a 和 误 报 率 8 有 关 。 随 着 “ 推 
断 " 值 的 变 大 ,由 定理 3-2 中 与 概率 p Fd SE a 和 误 报 率 8 相关 的 混合 策略 贝 叶 斯 均衡 可 
知 ,“ 恶 意 成 员 传 感 器 节点 ”选择 动作 Attack 的 概率 越 来 越 小 。 使 用 上 述 * 阶 段 人 侵 检 测 博 
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弈 ”的 好 处 在 于 “ 簇 头 入侵 检测 代理 ”不 必 在 每 一 个 阶段 选择 动作 Defend, 1x FE S&H T HA 
行人 侵 检 测 代 理 的 能 量 消耗 就 变 小 了 。 接 下 来 要 面临 的 一 个 新 问题 是 在 每 一 个 独立 的 阶段 
如 何 确定 一 个 合理 的 “推断 ” 值 p, 这 个 “推断 ” 值 必须 能 根据 实际 的 情况 进行 动态 地 更 新 。 
因此 ,本章 根据 无 线 传感器 网 络 人 侵 检测 的 实际 情况 ,进一步 将 * 单 阶段 静态 和 人 侵 检测 博弈 ” 
扩展 成 “多 阶段 动态 人 侵 检测 博弈 "并且 讨论 其 中 的 “推断 ” 值 是 如 何 更 新 的 。 


3.3.4 多 阶段 动态 入 侵 检 测 博弈 模型 


随 着 “成 员 传 感 器 节点 ”"S 和 “ 簇 头 入 侵 检测 代理 ”R 交互 的 进行 ,在 每 一 个 连续 的 阶段 
4(k 二 1,2,…,n; nE2*),“ 阶 段 入侵 检测 博弈 "将 被 重复 地 进行 。 为 简化 起 见 ,本 章 假设 
“成 员 传感器 节点 ”S 与 “ 簇 头 和 人 侵 检测 代理 "R 在 “阶段 博弈 "wx 和 ”阶段 博弈 ?wx-: 具 有 相同 
的 支付 矩阵 ,也 就 是 说 ,在 "多 阶段 动态 人 侵 检测 博弈 ?中 不 存在 收益 的 折扣 现象 。 

根据 贝 叶 斯 规则 ,“ 簇 头 入 侵 检 测 代理 ”R 可 以 从 * 阶 段 博弈 zx-~: 更 新 得 到 “阶段 博弈 "ww 
的 “推断”" 值 。 设 hs Cte) 为 "成员 传感器 节点 ”S 的 历史 动作 ,as(ze) 为 “成 员 传感器 节点 ”S 
在 “阶段 博弈 ”4 的 动作 ,p(0s 二 1las(4), hs Ca) ) 为 “后 验 推断 "”。 这 里 的 “后 验 推断 "表示 在 
“阶段 博弈 ?wx ”成 员 传感器 节点 "是 恶意 节点 的 概率 。 

定义 3-2 “HEA CEM RR 的 “后 验 推断 "的 计算 式 为 
ps — 1 | hsCaD) * plas(t) | Os = 1-hsCu)) 

3 pS| hs CDD * plast) | Üsshs Qu) 


AZA 

OP. pCOs|hs (te) HED EE hs Ce) FÉ" FESO HEMT” s plas) Oss hs) 为 在 "阶段 

博弈 "中 的 “成 员 传 感 器 节点 ”S 在 采取 历史 动作 h s Oo) KIN HE F EFEZIE as) 的 概率 。 
T TF FE 48] D EK A, REAR” R AB FE TERE RAR IRR EK AEWA” R 从 

观测 到 的 “成 员 传感器 节点 ”S 的 动作 中 不 一 定 能 正确 地 反映 实际 的 入 侵 检 测 现状 。 因 此 ， 

本 章 在 计算 后 验 概 率 pCas (te) |Os + hs(C)) 时 ,将 考虑 检测 率 和 误 报 率 的 影响 ,这 些 将 分 别 

由 以 下 的 式 子 得 到 , 即 


bs = 1 | as(te) shs Gi) (3-16) 


p(Attack | Os = 1, hs(t:)) = ao +B — p)» (3-17) 
p(Cooperate | bs = 1, hs(t.)) (1—2op-tü—gp-p. (3-18) 
p(Attack | bs = 0. hsC)) = B. (3-19) 
p(Cooperate | 0s = 0.hs()) = 1— f. (3-20) 


式 中 ,1 一 a 为 负 检测 率 ; 1—9 HERRE. 
定义 3-3 “多 阶段 动态 人 侵 检测 博弈 ?是 一 个 五 元 组 M = (N.O.A.P(D).U) ,其 中 ， 
* NOVA MU 的 定义 与 定义 3-1 PAY N.O.A 和 U 相同 。 
© P(D)=(pUs=1|hs(tz)) + 1—pGs 1| hs COD) FEP pCs=1|hs GOD RAR" RA 
传感器 节点 ”在 阶段 t REU E ITE hs CoO AY ATE PF FE BS TE“ BB 
JE” u SRY CE AR HE SK G3 160 3E EG p Os =l last), hsGuO 进行 更 新 。 
随 着 “推断 ” 值 的 更 新 .“ 多 阶段 动态 人 侵 检测 博弈 "将 以 序 贯 的 方式 进行 ,最 后 通过 “ 完 
美 贝 叶 斯 均衡 "表示 “多 阶段 动态 人 侵 检测 博弈 "的 均衡 。 在 整个 博弈 过 程 中 , “成 员 传 感 器 
TATUS 和 “ 簇 关 入 侵 检测 代理 ”R 为 最 大 化 它们 各 自 的 效用 ,并 不 总 是 在 每 一 个 阶段 博弈 中 
采用 相同 的 策略 ,并 且 随 着 “多 阶段 人 侵 检测 动态 博弈 ?的 进行 ,它们 的 最 优 响应 策略 与 可 能 
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改变 的 当前 “推断 ” 值 相互 独立 。 接 下 来 ,本 章 讨论 如 何 得 到 “成 员 传 感 器 节点 ”S 的 类 型 的 
“推断 ” 值 , 并 将 利用 得 到 的 完美 贝 叶 斯 均衡 得 到 “成 员 传感器 节点 ”S BU A BS C 
HR 的 最 优 响应 策略 。 在 寻找 "多 阶段 动态 人 侵 检测 博弈 ”的 完美 贝 叶 斯 均衡 之 前 ,本 章 首 
先 要 说 明 该 博弈 模型 满足 必需 的 贝 叶 斯 条 件 。 

定义 3-4) 贝 叶 斯 条 件 包括 : 

BO “后 验 推断 ”是 相互 独立 的 ,并 且 参 与 者 i 的 所 有 类 型 具有 相同 的 “ 先 验 推断 ”。 

BGD “ 先 验 推断 ”到 “后 验 推断 ”的 更 新 通过 贝 叶 斯 规则 实现 。 

B(iii) 参与 者 不 传递 任何 参与 者 所 不 知道 的 事情 信和 号。 

BCiv) “后 验 概率 ”在 @ 上 的 共同 的 联合 概率 分 布 是 一 致 的 。 

引 理 3-1 “多 阶段 动态 人 侵 检测 博弈 ?满足 贝 叶 斯 条 件 。 

证 明 因为 “ 簇 关 入 侵 检测 代理 ”R 只 有 一 种 类 型 ,因此 B(i) 满 足 。 因 为 式 (3-16) 由 贝 
叶 斯 规则 得 到 ,因此 B(ii) 满 足 。 因 为 “成 员 传感器 节点 ”S 的 信号 由 它 的 动作 来 决定 ,并 且 
如 果 条 件 as C) —as (tx) 成 立 , 那 么 p Oslas), hsCa)— plOslas(te)s hs(t4)), 因 此 
B(ii) 满 足 。 由 于 “多 阶段 动态 入 侵 检测 博弈 "在 任何 阶段 只 有 两 个 参与 者 ,并 且 没 有 其 他 的 
参与 者 会 影响 " 簇 尖 入 侵 检测 代理 ”R 对 “成 员 传 感 器 节点 ”S 的 “推断 " 值 的 更 新 ,因此 BCiv) 
满足 。 证 毕 。 

定理 3-3 “多 阶段 动态 人 侵 检测 博弈 ?存在 混合 策略 完美 贝 叶 斯 均衡 。 

证 明 在 “阶段 博弈 "4, 设 “ 恶 意 成 员 传感器 节点 ”在 “阶段 博弈 "i 的 策略 为 

os, = (ps1— pr) (3-21) 

式 中 ,pi 为 “恶意 成 员 传 感 器 节点 "0s 二 1 选择 动作 Attack Ay BOSE, Be“ HES A Ae Re (CRI R 
在 “阶段 博弈 ”的 策略 为 


orn, = (0,.1— 0) (3-22) 
式 中 ,8 为 “得 头 人 侵 检测 代理 ”R 采取 动作 Defend HRR., p" BES A eR RR 而 
言 ,在 “阶段 博弈 ”采取 动作 Defend 和 Idle 的 期 望 收益 分 别 是 
Eug Defend) =prp (Os = 1 | hs(te)) (agp — (1 —a)ga — cp) 
+ G-— pr) p(GS = 1 | hs(te))(— Ble — ev) 
+ (1 — pGs = 1 | hs(t.)))(— Blr — cv) (3-23) 


和 
Eur (Idle) = pip (Os = 1 As(t))( 一 gA) 十 (1 一 obs = 1 | hs(te)) * 0 
cO plés — 1| hs())) +0 
—— pp (Os — 1 |hs(t)) ga (3-24) 
dE" 3E EUR PA fe Jl 15 Os — 1 采取 最 优 混合 策略 os, HR UU Fs H REAL A BH (CPI R 
采取 动作 Defend 和 Idle 的 无 差异 性 可 以 得 到 


Eur(Defend) = Eug(Idle) (3-25) 
EE SA BOE IL CBE R. 的 最 优 混合 策略 为 
Ble + cp (3-26) 


PE = S6; — 1| hs (agp F aga T Bl) 
XE EER RIERA 1 n3 0s —1 而 言 , 采 取 动 作 Attack 和 Cooperate 的 期 望 收益 分 别 是 
Eus (Attack) =op (0s = 1 | Rs (ts) Ca) ga agea) 
FO — à) ps =1| hs Gr — ca) (3-27) 
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All 
Eus(Cooperate) —0,p (0s = 1 | hs (tk) (ge — cc) 
+ (1— ò) p(s = 1 | hs(te)) (ge — cc) 
Trà (1 — ps = 1 | hs(te))) (ge — cc) 
+ (1 —&)(1— ps = 1 | hs(te))) (ge — ce) (3-28) 
TE" EK A Be UU CER R 采取 最 优 混合 策略 or 的 情况 下 ,由 “恶意 成 员 传感器 节点 ”0s 二 1 
采取 动作 Attack 和 Cooperate 的 无 差异 性 可 以 得 到 
Eus(Attack) = Fus(Cooperate) (3-29) 
因此 ,“ 恶 意 成 员 传 感 器 节点 "0s 二 1 的 最 优 混合 策略 为 
pg PX =11hs(u ga — ps = 1 | hs Cu cx — ge t cc 
bs = 1 | hs(t:)) Caga Hago) 
综 上 所 述 ,在 “阶段 博弈 "% 存 在 混合 策略 完美 贝 叶 斯 均衡 (os sok, FEU os, A of, SPH 
与 检测 率 w RARE BOA Je Ie EIE" p Os =L hsa DAR, VERE. 
定理 3-3 表示 在 “多 阶段 动态 和 人 侵 检测 博弈 "中 ,两 个 理性 参与 者 “成 员 传感器 节点 ”S 
PIEK AARRE R 将 选择 最 优 策略 对 (os, ,ok )。 随 着 “多 阶段 动态 入 侵 检测 博弈 ” 
的 进行 ,它们 将 各 自 根据 定理 3-3 选择 最 优 的 动作 以 获取 最 大 的 利益 。 


3.3.5 ”基于 完美 贝 叶 斯 均衡 的 入 侵 检测 机 制 设 计 


根据 “多 阶段 动态 入 侵 检 测 博弈 "的 完美 贝 叶 斯 均衡 ,本 章 提出 并 设计 了 一 种 适合 于 无 
线 传感器 网 络 的 入 侵 检 测 机 制 。 图 3-3 给 出 了 “成 员 传 感 嚣 节点”S 和 " 簇 头 入 侵 检测 代理 ” 
R 在 入 侵 检测 过 程 中 进行 的 动作 交互 。 

在 图 3-3 中 ,基于 完美 贝 叶 斯 均衡 的 入 侵 检测 机 制 包括 4 个 部 分 : 存储 数据 区 、 管 理 
者 “成 员 传感器 节点 ”S 和 "* 徐 头 人 侵 检测 代理 ? 尺 。 存 储 数据 区 主要 用 于 存储 "多 阶段 动态 
入 侵 检测 博弈 涉及 的 参数 gp n cA cc Co Lr a B A PCs lI hs COD. PROS LA Ps 
节点 ”S 可 能 是 恶意 或 正常 的 节点 ,所 以 它 可 能 会 采取 动作 Attack 或 Cooperate, 这 些 动作 
所 产生 的 信息 将 会 形成 监控 数据 并 发 送 到 “ 簇 头 入侵 检测 代理 "RR。 在 “ 簇 关 入 侵 检测 代理 ” 
R 开始 工作 之 前 ,管理 员 首 先 已 配置 好 “ 徐 头 入 侵 检测 代理 ”R 的 相应 参数 以 便 尽 可 能 地 使 
它 工作 得 更 加 可 靠 和 准确 。 在 “ 簇 头 入侵 检测 代理 ”R 中 ,入 侵 检测 引擎 能 利用 已 有 的 异常 
和 误 用 检测 技术 判断 监控 数据 是 恶意 的 还 是 正常 的 。 然 后 " 秘 头 人 侵 检 测 代理 ? 尺 从 存储 数 
据 区 获得 相应 的 博弈 参数 并 初始 化 博弈 模型 ,从 而 建立 “阶段 人 侵 检测 博弈 ”。 该 博弈 模型 
将 接收 来 自信 侵 检 测 引 擎 中 的 输出 数据 和 由 管理 者 根据 经 验 值 设 定 的 支付 矩阵 。 其 中 , 计 
SEH A (CR 要 采取 动作 Defend 的 概率 Of 需要 来 自 * 阶 段 人 侵 检测 博弈 ”的 数 
据 支 持 , 其 计算 过 程 对 整个 人 侵 检测 机 制 而 言 是 一 个 关键 步骤 ,这 是 因为 根据 定理 3-3 ,得 
到 or 就 能 确定 “ 簇 头 入 侵 检 测 代理 ”"R 将 以 何 概率 选择 动作 Defend fil Idle, HJR. “i A 
侵 检测 代理 ”R 将 计算 pC0s 二 1|as(t), hs (te) ,并 据 此 更 新 p(0s 二 1|hs(t)) 后 存 人 存储 
数据 区 ,以 备 下 一 “阶段 入 侵 检测 博弈 "使 用 。 这 样 经 过 反复 迭代 ,形成 的 “多 阶段 动态 入侵 
检测 博弈 "被 用 于 决定 “ 簇 头 入 侵 检 测 代 理 "R 何 时 启动 的 策略 。 

下 面 给 出 基于 完美 贝 叶 斯 均衡 的 无 线 传感器 网 络 入 侵 检测 代理 何 时 启动 最 优 策略 算法 。 
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d 
“成 员 传感器 节点 "S 
恶意 成 员 传感器 节点 入 侵 检测 代理 R 
和 入 侵 检测 引擎 
Attack Cooperate Y 
PME SES tt 
Cooperate ig ER Hk 
! i 
正常 成 员 传感器 节点 isto; 
1 
i BEpCs Mast). hst) 
| mum | Defend Idle 


图 3-3 基于 完美 贝 叶 斯 均衡 的 人 侵 检 测 机 制 


算法 3-1 无 线 传感器 网 络 人 侵 检 测 代理 何 时 启动 最 优 策略 算法 。 
l. “RAAR” R 选择 动作 Idle. 

2. AAT MTS CHE SITE MRE“ SEA GEHE RR 

3. Do WHILE . T. 

4 “HES ACER ERE R 从 监控 数据 中 获取 一 条 记录 。 
IF 记录 包含 恶意 信息 THEN 

6 IE“ 阶段 人 侵 检测 博弈 "不 存在 THEN 

7 根据 给 定 的 博弈 参数 ,建立 “阶段 人 侵 检 测 博弈 ”。 
8 ELSE 

9. 获取 “阶段 入 侵 检 测 博弈 ”。 

10. ENDIF 

11. 根据 式 (3-30) 计 算 2X 。 

ds. 根据 式 (3-16) 计 算 p(Os=1| asti)» hs(te)). 

13. 由 p(Os=1| as(44), hst) EZ pCOs=1lhs(te))« 
14. 将 p(s —1|hs (te) 存储 到 存储 数据 区 。 

15. “ 徐 头 入 侵 检测 代理 ”R 以 概率 Of 选择 动作 Defend. 
16. ELSE 

1%, “BE AZ rill (RHR 选择 Idle, 

18. ENDIF 

19. IF 监控 数据 处 理 结束 

20. EXIT; 

21. ENDIF 

22. ENDDO 
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3.4 实验 


本 章 利 用 MATLAB 2010a 描述 * 多 阶段 动态 人 侵 检测 博弈 的 参数 并 实现 相应 的 模拟 
实验 。 在 “阶段 博弈 , 当 检 测 率 a 和 误 报 率 8 分 别 选 择 不 同 的 值 时 ,将 比较 用 于 确定 “恶意 
成 员 传感器 节点 ”类 型 的 “后 验 推断 ”p(0s 二 1| as), hs(ztx)) 的 变化 情况 。 另 外 ,本 章 还 根 
H a B Al p (Os — 1| hs (ti)) 的 变化 情况 揭示 pi Mok 的 变化 趋势 ,它们 将 分 别 决定 “恶意 成 
员 传 感 器 节点 ”选择 动作 Attack 的 概率 和 决定 “ 簇 关 入侵 检测 代理 ”R 选择 动作 Defend 的 
概率 。 为 实现 这 些 实验 ,根据 无 线 传感器 网 络 通常 状况 下 的 经 验 值 ,本 章 假设 相应 的 博弈 参 
数值 如 下 : ga =250, gc =5,g0=200, ca =20,cc=5,c0=10 fll [p 15, 

图 3-4 给 出 了 在 相同 的 误 报 率 B=0. 05 前 提 下 , 当 检测 率 a 变化 时 ,“ 簇 尖 入 侵 检测 代 
HR 计算 得 到 的 “后 验 推断 ”的 收敛 速度 。 从 中 可 以 看 出 ,检测 率 a 值 越 大 ,“ 后 验 推断 " 值 
收敛 到 1 的 速度 越 快 。 例 如 , 当 a 二 0.9 时 ,需要 10 次 “阶段 博弈 ",“ 后 验 推断 ”p(0s 二 1| 
Attack, hs(4)) 值 收敛 到 1; 4 a=0. 7 时 ,需要 12 次 "阶段 博弈 ”,“ 后 验 推断 ”p(0s 二 1| 
Attack, hs G2) 值 收 敛 到 1; 24 a0. 5 时 ,就 需要 16 次 “阶段 博弈 " 才 使 “后 验 推断 "PC0s 一 
llAttack. hs(te)) 值 收敛 到 1 。 

图 3-5 考虑 在 相同 的 检测 率 一 0. 9 前 提 下 ,不 同 的 误 报 率 对 “ 簇 头 入 侵 检测 代理 ”R 计 
算得 到 的 “后 验 推 断 ” 的 影响 。 从 中 可 以 看 出 , 误 报 率 8 值 越 小 ,“ 后 验 推 断 ” 值 收敛 到 1 的 速 
度 就 越 快 。 例 如 , 当 B==0.01 时 ,需要 5 次 “阶段 博弈 "使 “后 验 推断 ” 值 收敛 到 1; “4 B=0. 02 
时 ,需要 7 次 "阶段 博弈 "使 “后 验 推断 ” 值 收 敛 到 1; iij 9—0. 05 时 ,就 需要 10 次 “阶段 博 
弈 "才能 使 得 “后 验 推断 " 值 收敛 到 1。 根 据 图 3-4 和 图 3-5 的 实验 结果 ,检测 率 a 值 的 变 大 
和 误 报 率 8 值 的 变 小 都 将 使 * 徐 头 入 侵 检测 代理 ”R 判断 "成 员 传感器 节点 ”S 是 否 为 恶意 节 
点 的 速度 变 快 。 也 就 是 说 ,“ 簇 头 入 侵 检测 代理 ”R 检测 “恶意 成 员 传 感 器 节点 ”的 收敛 速度 
将 随 着 检测 精度 的 提高 而 变 快 。 


1.00 - 


后 验 推断 " 值 
ee 
sa 


“j 


0.50 < . 
0 2 4 6 8 10 12 14 16 18 20 
“阶段 博弈" 数 


图 3-4 “后 验 推断 "变化 趋势 (一 ) 


为 了 观察 “多 阶段 动态 人 侵 检测 博弈 ?的 完美 贝 叶 斯 均衡 变化 趋势 ,假设 “得 头 人 侵 检测 
REPR 具有 固定 的 误 报 率 B 一 0. 05, 初 始 状态 下 “ 簇 头 人 侵 检测 代理 ”R 的 检测 率 w 一 0.6， 
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后 验 推断 " 值 
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E 


050 ——À— ÀÀ— À—À— 3 a caca ca 
Ü 2 4 6 8 10 12 14 i16 18 20 
“阶段 博弈" 数 
图 3-5 “后 验 推断 "变化 趋势 (二 ) 


“恶意 成 员 传感器 节点 "选择 动作 Attack 的 概率 o, — 0. 5. fA GERE DI CRIT R 选择 
Defend 的 概率 二 0.9。 由 式 (3-26) 和 式 (3-30),“ 多 阶段 动态 入 侵 检 测 博弈 "的 “完美 贝 叶 
斯 均衡 对 ”os ,ok ) 除 与 上 述 假定 的 博弈 参数 “恶意 成 员 传感器 节点 ”和 " 徐 头 人 侵 检 测 代 
理 ” 的 期 望 收益 有 关外 ,还 跟 “ 簇 头 入 侵 检 测 代理 ”R 计算 得 到 的 “后 验 推断 "有 关 。 图 3-6 给 
出 了 当 检 测 率 a 从 0.6 变化 到 1 时,“ 恶意 成 员 传 感 器 节点 ”选择 Attack FI HRSG A ELE UU 
代理 ”R 选 作 动作 Defend 的 概率 变化 趋势 。 从 中 可 以 看 出 ,a 值 越 大 ,pi 和 6x 的 值 越 小 ， 
这 意味 着 “恶意 成 员 传 感 器 节点 "选择 动作 Attack 和 “ 簇 头 入 侵 检 测 代理 ”R 选择 动作 
Defend 的 概率 随 着 a 值 的 变 大 而 变 小 。 因 此 ,“ 簇 头 入 侵 检 测 代理 ”R 应 该 努力 提高 它 的 检 
测 率 以 降低 用 于 防御 “恶意 成 员 传感器 节点 "攻击 行为 的 成 本 。 

10 

09 


一 一 亚 意 成 员 传感器 节点 
一 徐 头 人 侵 检测 代理 


概率 
Pens 
| 


02r 
01r 


0 " 1 1 1 1 1 1 1 
0.60 0.65 0.70 0.75 0.80 0.85 0.90 0.95 1.00 
a 


图 3-6 概率 变化 趋势 
从 上 述 实验 结果 可 知 ,“ 多 阶段 动态 入侵 检测 博 穿 能 为 “ 簇 关 入侵 检测 代理 ”提供 优化 
的 动作 选择 策略 ,能 根据 "恶意 成 员 传 感 器 节点 "的 历史 动作 合理 地 更 新 用 于 推测 “恶意 成 员 
传感器 节点 ”的 “后 验 推断 " 值 。 通 过 提高 " 簇 头 人 侵 检测 代理 ”的 检测 率 和 降低 它 的 误 报 率 ， 
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“得 头 人 侵 检测 代理 ”判断 ”成员 传 感 器 节点 "是否 为 恶意 节点 的 收敛 速度 将 明显 变 快 ,从 而 ， 
使 得 基于 完美 贝 叶 斯 均衡 的 人 侵 检测 机 制 能 更 快 且 更 主动 地 防御 "恶意 成 员 传感器 节点 ”的 
攻击 行为 。 


3.5 小 结 


为 了 选择 最 优 的 入侵 检测 响应 策略 以 节省 无 线 传感器 网 络 人 侵 检测 系统 的 资源 消耗 ， 
本 章 提出 了 一 种 基于 信号 博弈 的 人 侵 检 测 博弈 模型 。 该 博弈 模型 能 反映 ”成 员 传感器 节点 ” 
和 “包头 入 侵 检 测 代 理 " 之 间 的 交互 ,并 能 揭示 “成 员 传 感 器 节点 "和"“ 簇 头 入 侵 检测 代理 ”在 
不 同 的 “阶段 博弈 "中 如 何 采取 攻击 策略 和 防御 策略 的 规律 。 本 章 选 择 的 分 布 一 集中 混合 式 
网 络 结构 能 有 效 地 降低 “ 簇 关 入 侵 检测 代理 ”执行 时 的 能 量 消 耗 。 在 每 个 独立 的 阶段 ,各 “ 阶 
段 人 侵 检测 博弈 ?能 很 好 地 展示 传感器 节点 之 间 的 交互 行为 ,得 到 的 纯 策略 和 混合 策略 贝 叶 
斯 均衡 使 " 秘 头 人 侵 检测 代理 ”知道 何 时 选择 动作 Defend 或 Idle. tit Se ib.“ WEL A GU HI 
代理 "不 必 总 是 选择 Defend, 从 而 有 效 地 降低 用 于 运行 “ 簇 头 人 侵 检测 代理 "的 能 量 消耗 。 
随 着 博弈 的 进行 ,本 章 将 "阶段 人 侵 检测 博弈 "转变 成 能 根据 “恶意 成 员 传感器 节点 ”的 当前 
和 历史 行为 进行 动态 更 新 “推断 " 值 的 “多 阶段 动态 入 侵 检测 博弈 "模型 ,并 且 得 到 了 能 使 * 簇 
头 入 侵 检 测 代 理 " 使 用 最 佳 响 应 策略 的 混合 策略 完美 贝 叶 斯 均衡 。 根 据 这 些 完 美 贝 叶 斯 均 
衡 提 出 的 入 侵 检 测算 法 实现 了 入 侵 检 测 博弈 的 应 用 。 实 验 结果 说 明了 提出 的 入 侵 检测 博弈 
模型 在 预测 “成 员 传 感 器 节点 "类 型 方面 的 有 效 性 ,从 而 “ 簇 关 入 侵 检测 代理 "能 主动 地 选择 
优化 的 策略 防御 “恶意 成 员 传感器 节点 ”的 攻击 。 


第 4 章 


基于 演化 博弈 的 无 线 传感器 网 络 节点 
信任 演化 动力 学 研究 


本 章 利用 演化 博弈 研究 传感器 节点 间 的 信任 决策 过 程 , 根 据 各 个 传感器 节点 能 选择 不 
同 策略 的 实际 情况 建立 “无 线 传感器 网 络 信任 博弈 ?模型 ,通过 整合 激励 机 制 参数 来 说 明 激 
励 机 制 对 传感器 节点 选择 动作 的 影响 ,使 用 复制 动态 动力 学 方程 探索 博弈 模型 的 演化 稳定 
策略 ,从 而 揭示 无 线 传感器 网 络 各 传感器 节点 间 的 信任 演化 原理 。 


4.1 引言 


当前 ,无线 传感器 网 络 的 应 用 范围 大 致 可 概括 为 监测 (Monitoring) 和 追踪 (Tracking) 
两 大 领域 。 监 测 领 域 主要 包括 环境 监测 .健康 监测 .电网 监测 .工业 自动 化 监测 `. 地 震 监测 
等 ,追踪 领域 主要 涉及 目标 跟踪 ,如 动物 跟踪 、 特 定 人 员 跟 踪 、 车 辆 跟踪 等 。 为 了 支持 这 些 应 
用 ,如 何 保证 无 线 传感器 网 络 的 安全 是 首先 要 解决 的 问题 。 采 用 基于 密码 学 的 方法 是 一 种 
传统 的 网 络 安全 技术 ,这 种 技术 常 称 为 硬 安全 (Hard Security)“ ,主要 解决 数据 机 密 性 、 数 
据 完 整 性 和 传感器 节点 的 身份 认证 等 问题 。 另 一 种 是 采用 称 为 软 安全 (Soft Security) fy 
信任 和 声誉 管理 系统 ,这 种 机 制 能 有 效 地 应 对 部 分 已 通过 硬 安全 检查 的 正常 节点 为 了 自己 
能 获取 更 大 的 利益 而 提供 错误 或 虚假 信息 的 欺骗 行为 。 因 此 ,信任 和 声誉 管理 系统 是 硬 安 
全 技术 的 有 效 补充 ,对 保障 无 线 传感器 网 络 正常 安全 地 运行 具有 重要 作用 。 

作为 最 近 几 年 应 用 到 无 线 传感器 网 络 中 的 安全 技术 ,基于 信任 的 安全 机 制 有 其 自身 的 
特点 。 与 加 解密 ,监测 非法 入 侵 等 安全 技术 相 比 , 信任 机 制 是 在 以 无 线 传感器 网 络 传感器 
节点 为 中 心 的 环境 中 , 帮助 各 传感器 节点 建立 信心 , 推动 传感器 节点 之 间 的 协作 , 降低 与 
其 他 传感器 节点 合作 的 风险 。 通 常 ,一 个 无 线 传感器 网 络 信任 和 声誉 管理 系统 需要 解决 如 
何 确定 传感器 节点 的 信任 度 及 传感器 节点 之 间 的 信任 如 何 进行 演化 的 问题 。 这 是 由 于 一 旦 
在 无 线 传感器 网 络 中 部 署 信任 管理 系统 后 ,传感器 节点 间 的 信任 决策 及 其 动力 学 演化 将 决 
定 传感器 节点 间 是 否 采取 合作 的 行为 ,从 而 影响 整个 无 线 传感器 网 络 的 稳定 和 安全 。 在 这 
个 过 程 中 ,无 线 传感器 网 络 信任 管理 系统 需要 收集 并 存储 用 于 确定 信任 度 的 相应 凭据 ,需要 
记录 传感器 节点 的 动作 行为 ,再 计算 得 到 对 应 传感器 节点 的 信任 度 值 。 根 据 其 他 传感器 节 
点 的 信任 度 值 ,一 个 传感器 节点 将 通过 信任 决策 确定 是 否 与 其 他 传感器 节点 进行 合作 ,使 得 
那些 有 欺骗 行为 (相应 的 信任 度 要 低 ) 的 传感器 节点 在 试图 进行 通信 时 得 不 到 其 他 节点 的 合 
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作 通 信 支 持 , 从 而 减少 传感器 节点 的 欺骗 行为 ,保障 无 线 传感器 网 络 的 正常 通信 。 因 此 , 研 
究 无 线 传感器 网 络 传感器 节点 的 信任 决策 和 信任 演化 动力 学 过 程 对 保障 无 线 传感器 网 络 的 
稳定 和 安全 起 重要 作用 "1。 

博弈 论 作 为 研究 参与 者 之 间 理性 决策 的 有 效 工具 "" ,已 广泛 用 于 无 线 传感器 网 络 优 
化 的 多 个 方面 ,如 能 量 消耗 优化 "5 ,功率 优化 分 配 吕 等 问题 。 使 用 博弈 论 工 具 , 能 得 到 参 
与 者 采取 策略 的 均衡 点 ,从 而 决定 各 参与 者 的 最 优 行动 。 与 传统 博弈 类 型 不 同 的 是 ,演化 博 
弈 认为 一 个 种 群 (Population) 中 的 参与 者 具有 进化 能 力 并 能 为 满足 自身 利益 而 重复 地 进行 
博弈 ,直至 整个 种 群 达到 一 定 程度 的 均衡 。 根 据 演化 博弈 理论 ,一 个 种 群 的 动力 学 演化 反映 
的 是 那些 选择 具有 较 高 收益 策略 的 个 体 (Individual) ,将 逐步 增加 它们 在 整个 种 群 中 的 比 
例 ,而 那些 选择 具有 较 低 收益 策略 的 个 体 比例 将 逐步 减少 。 通 过 使 用 演化 博弈 这 种 工具 ,可 
以 分 析 一 个 种 群 中 各 参与 者 对 不 同 策略 进行 的 选择 演化 ,从 而 揭示 整个 种 群 在 假定 利益 前 
提 下 的 决策 动力 学 演化 规律 。 

本 章 将 利用 演化 博弈 研究 传感器 节点 间 的 信任 决策 过 程 ,从 而 揭示 无 线 传感器 网 络 各 
传感器 节点 间 的 信任 演化 原理 。 根 据 演 化 博弈 论 的 特点 ,本 章 将 整个 无 线 传感器 网 络 看 作 
一 个 种 群 ,并 将 每 个 传感器 节点 看 作 这 个 种 群 中 的 一 个 个 体 。 然 后 根据 各 个 传感器 节点 能 
选择 不 同 策略 的 实际 情况 建立 “无 线 传感器 网 络 信任 博弈 模型 ,并 且 为 了 研究 激励 机 制 对 
传感器 节点 选择 动作 Trust( 即 可 以 合作 通信 ?的 影响 ,在 "无 线 传感器 网 络 信任 博弈 ?模型 
中 整合 激励 机 制 参数 。 为 了 说 明 * 无 线 传感器 网 络 信任 博弈 "模型 的 稳定 性 ,通过 复制 动态 
动力 学 方程 探索 “无 线 传感器 网 络 信任 博弈 ”的 演化 稳定 策略 。 

在 扩展 作者 前 期 工作 5 的 基础 上 ,本 章 的 工作 主要 包括 以 下 内 容 : 

CD 建立 适用 于 传感器 节点 信任 决策 的 "无 线 传感器 网 络 信任 博弈 ”模型 ,该 模型 能 在 
传感器 节点 进行 信任 决策 时 正确 地 反映 传感器 节点 选择 不 同 动作 的 收益 情况 。 

(2) 在 "无 线 传感器 网 络 信任 博弈 ?模型 中 绑 定 激励 机 制 参数 后 ,也 就 是 说 , 若 在 实际 的 
无 线 传感器 网 络 信任 管理 系统 中 引入 激励 机 制 ,能 有 效 地 减少 传感器 节点 选择 动作 
Distrust( 即 对 相互 通信 采取 不 合作 的 行为 ) 的 比例 ,从 而 使 各 传感器 节点 向 选择 动作 Trust 
转化 ,达到 改善 无 线 传感器 网 络 的 稳定 性 和 安全 性 的 目的 。 

(3) 得 到 与 "无 线 传感器 网 络 信任 博弈 ”相关 的 演化 稳定 策略 定理 ,这 些 定理 给 出 了 达 
到 演化 稳定 策略 的 条 件 , 并 且 能 为 无 线 传感器 网 络 信任 管理 系统 的 实际 设计 提供 理论 基础 。 

本 章 其 余 章节 安排 如 下 : 4. 2 节 说 明 相关 工作 ; 4. 3 节 建 立 “ 无 线 传感器 网 络 信任 博 
弈 ?模型 并 利用 复制 动态 方程 寻求 相应 的 演化 稳定 策略 及 揭示 传感器 节点 信任 演化 机 理 ; 
4.4 节 通 过 实验 验证 “无 线 传感器 网 络 信任 博弈 "的 演化 稳定 策略 和 激励 机 制 的 有 效 性 ; 
4.5 节 给 出 本 章 小 结 。 

本 章 涉及 的 符号 含义 如 下 : 

5 表示 第 i 个 纯 策略 。 

S 表示 给 定 种 群 中 各 个 体 可 选择 的 纯 策略 集合 。 

di CORR EIN Za] t 选择 纯 策 略 ;的 个 体 数量 。 

0:( 四 表示 在 时 刻 t 选择 纯 策 略 ;的 个 体 比例 。 

9() 表 示 种 群 在 时 刻 1 的 混合 策略 。 

us; QC ) 表 示 个 体 在 时 刻 t 选择 纯 策略 ;的 期 望 收益 。 
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u OD ,0(D)) 表 示 种 群 的 平均 期 望 收益 。 

工 表示 一 个 传感器 节点 的 信任 度 。 

a 表示 一 个 传感器 节点 选择 某 个 动作 后 产生 的 收益 和 它 的 信任 度 之 间 的 调节 因子 。 

Gr 表示 一 个 传感器 节点 选择 动作 Trust 后 得 到 的 收益 。 

Go 表示 一 个 传感器 节点 选择 动作 Distrust 后 得 到 的 收益 。 

Gc 表示 一 个 传感器 节点 在 相 邻 节点 选择 Trust 时 所 得 到 的 合作 收益 。 

C 表示 一 个 传感器 节点 在 发 送 自身 数据 或 转发 其 他 传感器 节点 的 数据 时 所 产生 的 
成 本 。 

L 表示 一 个 传感器 节点 在 相 邻 传感器 节点 选择 动作 Distrust 时 对 其 造成 的 损失 。 

了 一 (P,N,S,U) 表 示 "* 无 线 传感器 网 络 信任 博弈 ”。 

0 表示 选择 动作 Trust 的 传感器 节点 在 整个 无 线 传感器 网 络 中 所 占 的 比例 。 


4.2 相关 工作 


信任 就 是 相信 和 对方, 是 一 种 建立 在 自身 知识 和 经 验 基础 上 的 判断 ,是 一 种 实体 与 实体 之 
间 的 主观 行为 ,是 基于 观察 所 得 到 的 经 验 总 结 。 信 任 能 识别 无 线 传感器 网 络 中 的 恶意 节点 
和 自私 节点 ,被 认为 是 对 基于 密码 体制 安全 措施 的 有 效 补充 。 

虽然 信任 机 制 近 几 年 来 才 被 引入 到 无 线 传感器 网 络 , 但 研究 人 员 对 无 线 传感器 网 络 信 
任 机 制 研究 的 关注 度 很 高 ,已 有 大 量 文献 发 表 。 荆 琦 等 人 "中 综述 了 无 线 传感器 网 络 环境 
下 信任 管理 的 特点 、 分 类 方法 ,框架 设计 等 ,并 介绍 了 无 线 传感器 网 络 下 的 典型 信任 管理 系 
统 。 指 出 信任 管理 系统 的 核心 是 以 信任 计算 模型 为 中 心 的 信任 管理 框架 设计 ,讨论 了 信任 
要 素 、 信 任 计算 模型 和 信任 值 的 应 用 3 个 方面 。Momanit" "1 综述 了 无 线 传感器 网 络 中 已 提 
出 的 主要 信任 模型 。Yu 等 人 中 和 Eschoaa 分 别 综述 了 包括 无 线 传感器 网 络 在 内 的 无 线 通 
信和 领域 中 的 信任 和 信誉 管理 系统 。Lopez 等 人 中 给 出 了 在 无 线 传感器 网 络 实施 信任 管理 
系统 的 最 佳 实践 。Yu 等 人 中 分 析 了 无 线 传感器 网 络 中 与 信任 模式 相关 的 攻击 类 型 与 对 
策 , 从 路 由 安全 和 数据 安全 两 方面 总 结 了 无 线 传感器 网 络 环境 下 信任 管理 的 研究 现状 ,提出 
了 进一步 的 研究 发 展 方向 。 

目前 ,对 无 线 传感器 网 络 信任 的 研究 主要 集中 在 对 节点 进行 信任 度 计 算 方面 ,再 将 信任 
度 值 应 用 于 路 由 2 、 数 据 融合 "2 、 安 全 架构 2 等 无 线 传感器 网 络 的 基础 支撑 技术 
中 ,从 而 全 面 提 高 无 线 传感器 网 络 的 安全 性 和 可 用 性 。 莫 英 红 等 人 55 将 传感器 节点 的 信 
任 分 为 传 感 信任 ,传递 信任 和 融合 信任 ,利用 局 部 相关 一 致 性 原理 检测 传感器 节点 的 功能 行 
为 ,提出 一 种 按 功 能 行为 进行 分 类 信任 的 安全 数据 融合 方法 。 这 种 方法 可 以 有 效 地 提高 无 
线 传感器 网 络 数据 融合 的 安全 性 和 可 靠 性 ,从 而 延长 网 络 寿 命 。 黄 廷 磊 和 李小龙 22 针对 
无 线 传感器 网 络 中 正常 节点 误 判 为 恶意 节点 的 问题 ,提出 一 种 基于 本 地 信息 评估 传感器 节 
点 信任 值 的 信任 管理 机 制 。 王 建 薄 等 人 "3 把 声誉 和 组 信任 结合 用 于 无 线 传感器 网 络 中 的 
实体 认证 协议 ,通过 引入 对 称 密 钥 体制 ,避免 了 非 对 称 密 钥 体 制 实施 数字 签名 计算 量 大 的 问 
题 ,' 有 效 地 降低 了 协议 的 认证 时 延 。 昌 林涛 等 人 ”2 提出 了 一 种 面向 分 层 路 由 的 信任 模型 
用 于 解决 无 线 传感器 网 络 不 能 有 效 地 检测 出 内 部 恶意 节点 攻击 所 引发 的 网 络 安全 问题 ,该 
模型 能 发 现 并 排除 来 自 无 线 传感器 网 络 内 部 实施 攻击 的 恶意 节点 ,从 而 提高 安全 性 能 。 董 
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慧 慧 和 郭 亚军 "5 吕 将 传感器 节点 通信 、 数 据 和 能 量 相 结合 ,把 感知 数据 和 传感器 节点 能 量 加 
入 到 传感器 节点 的 信任 评估 中 ,来 计算 各 自 的 信任 值 ,这 种 基于 多 角度 的 信任 模型 能 够 更 准 
确 \ 简 单 地 判断 一 个 传感器 节点 的 可 信 性 ,从 而 建立 一 个 传感器 节点 之 间 相 互 可 信 的 无 线 传 
感 器 网 络 。 张 乐 君 等 人 "建立 了 基于 社会 网 络 关 联 度 的 无 线 传感器 网 络 节点 信任 模型 ， 
提出 了 基于 关联 度 的 传感器 节点 信誉 度 的 计算 方法 ,并 设计 了 基于 滑动 窗口 的 传感器 节点 
信任 值 计算 及 更 新 算法 。Maarouf 等 人 中 提出 了 一 种 基于 声誉 系统 的 信任 感知 路 由 方案 ， 
利用 概率 论 计算 方法 在 保证 满足 恶意 节点 检测 度 的 前 提 下 降低 了 邻居 节点 的 监测 频率 。 
Aivaloglou 和 Gritzalis ^? 基于 证 书 和 行为 的 混合 方法 来 建立 传感器 节点 的 信任 度 ,使 得 传 
感 器 节点 的 信任 度 可 以 根据 网 络 的 配置 改变 而 演化 。Leligou 等 人 "9 将 信任 机 制 用 于 解 
决 位 置 感知 路 由 协议 中 的 攻击 问题 ,传感器 节点 将 在 考虑 位 置 和 相 邻 传 感 器 节点 信任 值 的 
基础 上 决定 合适 的 路 由 。Zhan 等 人 D5 提 出 一 种 能 对 多 种 错误 和 攻击 容忍 的 无 线 传感器 网 
络 信任 管理 系统 ,能 根据 历史 数据 和 当前 行为 的 风险 利用 高 斯 模型 细 粒 度 地 计算 出 传感器 
节点 相应 的 信任 度 。Boukerch 4 AO?! 为 无 线 传感器 网 络 提出 了 一 种 基于 智能 体 (Agent) 
的 信任 和 声誉 管理 框架 ,该 框架 具有 较 小 的 额外 信息 和 时 延 。Mdrmol 和 Pérez?" Jg 1 fit 
系统 中 的 信任 建立 机 制 应 用 于 无 线 传感器 网 络 , 提 出 的 基于 生物 启发 技术 的 信任 管理 系统 
具有 精确 、 鲁 棒 的 特点 。He 等 人 中 针对 无 线 医疗 传感器 网 络 (Wireless Medical Sensor 
Networks) 中 的 安全 和 隐私 需求 ,提出 一 种 攻击 容忍 的 轻 量 级 信任 管理 系统 ,实现 了 对 传 感 
器 恶意 节点 的 有 效 检测 。Bao 等 人 " 通过 来 自 整个 网 络 的 多 维 信任 信息 来 评价 一 个 传 感 
器 节点 的 信任 度 , 设 计 了 一 个 层次 化 的 信任 管理 系统 ,并 用 于 基于 位 置 感知 的 路 由 协议 和 基 
于 信任 的 入 侵 检测 领域 。Jiang 等 人 中 针对 当前 信任 度 计算 仅 考虑 通信 行为 的 现状 ,提出 
一 种 新 的 直接 信任 度 和 推荐 信任 度 计算 方法 ,其 中 ,直接 信任 度 的 计算 考虑 了 节点 通信 、 能 
耗 , 数 据 传输 等 因素 ,而 推荐 信任 度 的 计算 考虑 了 信任 的 可 靠 度 和 亲密 度 。Ren 等 人 中 针 
对 无 人 照料 的 无 线 传感器 网 络 ,提出 一 种 有 效 且 和 鲁 棒 的 信任 度 计 算 和 存储 方法 ,其 中 ,地 理 
位 置 哈 希 表 (Geographic Hash Table) 被 用 于 标识 需要 存储 信任 度 的 节点 ,显著 降低 了 存储 
成 本 。 

Chae 等 人 中 针对 现 有 信任 管理 中 清偿 模式 (Redemption Scheme) 不 能 区 分 暂时 错误 
(Temporary Errors) 和 假装 恶意 行为 (Disguised Malicious Behaviors) 的 问题 ,提出 了 一 种 
新 的 信任 管理 模式 ,很 好 地 解决 了 该 问题 。Zhou 等 人 9 根据 节点 位 置 和 其 他 节点 的 信任 
值 ,通过 优化 调度 信任 管理 系统 中 的 看 门 狗 (Watchdog) 任 务 , 得 到 了 一 种 能 量 高 效 的 信任 
管理 系统 。 由 于 云 计算 具有 的 强大 数据 存储 和 处 理 能 力 , 可 以 处 理 无 线 传感器 网 络 中 的 巨 
量 感知 数据 ,Zhu 等 人 中 针对 这 种 传 感 云 结构 ,提出 一 种 新 的 信任 度 和 信誉 度 计算 方法 以 
及 相应 的 管理 系统 ,能 实现 云 服务 提供 者 和 传 感 网 络 提供 者 的 认证 ,帮助 用 户 正 确 选择 云 服 
务 提供 者 ,并 使 云 服 务 提供 者 能 选择 合适 的 传 感 网 络 提供 者 的 功能 。 

演化 博弈 与 无 线 网 络 的 结合 是 当前 学 术 界 的 研究 热点 之 一 ,在 无 线 网 络 的 不 同方 面 都 
已 有 演化 博弈 的 相关 应 用 。 张 国 鹏 等 人 ”9 利用 演化 博弈 提出 一 种 能 有 效 激励 Ad Hoc 无 
线 网 络 节点 参与 数据 中 继 转 发 协作 的 问题 ,以 节点 中 继 所 需 的 能 量 开销 与 数据 分 组 数 为 均 
衡 点 建立 单 阶段 博弈 模型 ,验证 节点 的 自私 性 ,然后 扩展 单 阶段 博弈 为 基于 策略 可 转换 的 演 
化 博弈 ,并 提出 了 协作 激励 策略 。 刘 凤 鸣 和 丁 永生 "外 运用 演化 博弈 理论 ,对 P2P 网 络 节点 
信任 度 的 动力 学 方程 进行 求解 ,并 运用 复制 动态 模型 分 析 了 节点 之 间 信 任 关系 的 演化 趋势 ， 
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揭示 了 节点 间 相 互信 任 的 演化 动力 学 规律 。 而 项 兴 彬 等 人 "入 将 演化 博弈 应 用 于 P2P 网 络 
环境 下 文件 共享 时 节点 的 信任 建立 。Niyato 和 Hossainn" 久 为 了 解决 异 构 网 络 中 不 同 服务 
区 域 中 用 户 如 何 分 享有 限 带 宽 的 问题 ,利用 演化 博弈 建立 了 相应 的 博弈 模型 用 于 反映 这 种 
用 户 之 间 进 行 的 带宽 竞争 现状 ,研究 了 用 户 对 网 络 选择 的 动力 学 过 程 。Tembine AO 
以 Aloha 无 线 网 络 中 多 路 控制 (Multiple-access Control) 和 CDMA(Code Division Multiple 
Access) 无 线 网 络 中 功率 控制 为 背景 ,将 扩展 后 的 演化 博弈 用 于 研究 任意 多 个 用 户 之 间 的 非 
合作 交互 行为 。Komathy 和 Narayanasamy" 志 利用 演化 博弈 提出 一 种 动态 且 分 布 式 的 框 
架 用 于 研究 自 组 织 Ad Hoc 网 络 中 自私 节点 的 行为 演化 动力 学 问题 ,并 与 AODYV 路 由 协议 
结合 说 明了 提出 的 博弈 模型 在 促进 自私 节点 转向 合作 时 所 起 的 作用 。Anastasopoulos 等 
人 5 锐利 用 演化 博弈 中 的 复制 动态 动力 学 方程 提出 了 一 种 能 进行 自 适应 调节 编码 和 调制 的 
机 制 实现 最 大 化 TCP 吞吐 量 的 目的 。Wang 等 人 ”根据 演化 博弈 具有 的 自 适应 学 习 能 力 
和 群体 中 的 个 体能 在 环境 条 件 改变 的 情况 下 选择 最 优 响应 策略 的 特性 ,将 其 用 于 解决 合作 
的 频谱 检测 问题 ,得 到 了 后 续 用 户 的 行为 演化 动力 学 规律 和 相应 的 演化 均衡 策略 。 类 似 地 ， 
Wang 等 人 5 也 利用 演化 博弈 讨论 了 无 线 网 络 中 的 合作 与 共 谋 (Collusion) 的 问题 。Chen 
等 人 "外 利用 演化 博弈 提出 一 种 适用 于 无 线 传感器 网 络 环境 的 动态 激励 机 制 ,促使 传感器 
节点 为 最 大 化 其 适应 度 (Fitness) 而 动态 调整 策略 ,最 终 使 自私 节点 能 转向 合作 实现 无 线 传 
感 器 网 络 的 正常 服务 。 另 外 ,演化 博弈 的 应 用 领域 还 包括 处 理 无 线 传感器 网 络 中 的 数据 融 
AT ,分 析 P2P 网 络 中 能 实现 节点 间 相 互 合作 的 自 适应 激励 协议 路、 异 构 4G 网 络 中 为 达 
到 最 优 策略 而 进行 的 学 习 机 制 259 等 。 

通过 信任 机 制 实现 自治 网 络 的 安全 过 程 可 以 看 作 是 一 个 策略 交互 的 过 程 , 一 个 节点 的 
信任 决策 将 影响 其 他 节点 的 信任 决策 (信任 或 不 信任 ) 和 网 络 状态 (安全 或 不 安全 ) ,这 种 决 
策 的 过 程 自然 可 以 利用 博弈 论 进行 解释 和 分 析 。 因 此 ,在 信任 和 博弈 论 的 结合 方面 ,已 有 一 
些 不 同 的 博弈 类 型 被 应 用 于 不 同 网 络 环境 下 的 信任 机 制 研究 。 孟 宪 福 和 王 动 中 通过 引入 
惩戒 机 制 ,建立 了 一 种 基于 重复 博弈 的 P2P 网 络 信誉 模型 ,以 达到 激励 节点 协作 的 目的 。 
罗 俊 海 和 范 明 钰 "5 基于 非 合作 完全 信息 静态 博弈 研究 Ad Hoc 网 络 中 的 节点 行为 ,提出 了 
相应 的 信任 模型 ,每 个 节点 根据 自身 的 信誉 度 来 获得 资源 ,鼓励 节点 共享 资源 和 转发 数据 ， 
惩罚 自私 节点 。 黄 宇 等 人 05 将 完全 信息 扩展 博弈 运用 于 信任 协商 决策 中 ,将 自动 信任 协 
商 过 程 转化 为 完全 信息 扩展 博弈 过 程 ,构造 了 信任 博弈 树 和 支付 函数 ,依据 子 博弈 精炼 纳什 
均衡 来 决定 自动 信任 协商 策略 。 刘 继 超 等 人 "中 基于 非 合 作 完 全 信息 静态 博弈 研究 信任 建 
立 过 程 ,根据 纳什 均衡 解 精 减 初始 证 书 交换 集 , 使 得 节点 双方 在 获取 对 方 最 大 信任 的 同时 ， 
自身 隐私 损失 降 到 最 低 限 度 。 陈 品 等 人 中 将 整个 信任 系统 分 为 证 据 收 集 、 信 任 度 量 和 服 
务 博弈 三 部 分 ,其 中 服务 博弈 模块 利用 非 合 作 完全 信息 静态 博弈 分 析 度量 结果 ,结合 网 络 环 
境 得 到 服务 提供 者 行动 的 混合 纳什 均衡 策略 。 孙 玉 星 等 人 "中 通过 重复 概率 博弈 模型 分 析 
节点 之 间 的 信任 推荐 交互 过 程 ,给 出 了 TFT (Tit For Tat), GTFT(Generous TFT)、GT 
(Grim Trigger) ,OT(One-step Trigger) 等 激励 策略 对 提升 节点 间 信 任 推荐 协作 的 影响 。 
BES HS A fi I E GS CE LR AS BU , 非 合 作 完 全 信息 静态 博弈 相 结合 并 应 用 于 无 线 接 人 服 
务 中 ,根据 移动 节点 的 历史 行为 信任 等 级 和 请 求 服务 所 需 的 资源 来 计算 各 个 信任 和 请 求 服 
务 等 级 的 概率 ,再 结合 纳什 均衡 解 给 出 无 线 接 入 点 是 否 接 纳 的 决策 。Wang AOE 
作 完 全 信息 静态 博弈 应 用 于 P2P 网 络 中 资源 请 求 者 和 资源 提供 者 之 间 的 信任 协商 过 程 ,得 
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到 的 混合 纳什 均衡 解 被 用 于 确定 需要 缓存 的 信任 序列 数量 。Jaramillo 和 Srikant 针对 
Ad Hoc 网 络 中 的 自私 节点 ,利用 演化 博弈 提出 一 种 具有 自 适应 特点 的 分 布 式 声誉 机 制 , 有 
效 避 免 了 因 错 误 地 将 正常 节点 误 判 为 自私 节点 后 该 节点 的 报复 行为 。Mejia 等 人 中 为 了 
解决 Ad Hoc 网 络 节点 间 的 合作 问题 ,引入 完全 信息 静态 博弈 建立 节点 间 的 信任 模型 ,利用 
细菌 算法 使 节点 能 快速 学 习 到 节点 的 合作 行为 ,实现 了 在 较 短 时间 达 到 优化 合作 的 目的 。 
Yahyaouic5 将 竞价 博弈 和 信任 结合 用 于 Web 服务 领域 ,在 每 次 博弈 中 ,不 同 的 Web 服务 
提供 者 对 需要 完成 的 任务 以 信任 成 本 的 方式 进行 报价 ,具有 最 低 成 本 的 Web 服务 提供 者 将 
赢得 博弈 。 

但 将 博弈 论 方法 应 用 于 无 线 传感器 网 络 信任 研究 的 文献 并 不 多 见 。 杨 东 狗 等 人 9 为 
了 帮助 无 线 传感器 网 络 做 出 既 有 利于 自身 收益 又 能 抑制 恶意 节点 的 决策 ,提出 了 一 种 基于 
重复 博弈 能 实现 信任 激励 的 时 际 分 配 博弈 模型 。 李 紫川 等 人 ?中 针对 无 线 传感器 网 络 节点 
信任 决策 影响 节点 间 互 助 转 包 问题 ,在 考虑 网 络 不 可 靠 因素 的 基础 上 ,引入 节点 反思 机 制 ， 
构建 基于 概率 论 方法 的 无 线 传感器 网 络 节点 信任 演化 模型 ,再 通过 动力 学 分 析 , 推 导出 达到 
演化 稳定 状态 的 定理 。Komathy 和 Narayanasamy * 基于 演化 博弈 构建 了 针对 自私 节点 
动态 行为 的 模型 并 用 于 形成 节点 的 信任 值 评估 ,但 缺乏 对 节点 信任 值 动 态 演化 机 理 的 深入 
分 析 。Agah 等 人 外 利用 合作 博弈 建立 了 关注 节点 合作 度 , 信 任 度 和 安全 质量 三 方面 因素 
的 模型 ,根据 节点 丢失 的 数据 包 率 来 判定 节点 的 安全 质量 ,并 提出 基于 节点 合作 次 数 的 信任 
度 计算 方法 。Feng 等 人 0 中 针对 无 线 传感器 网 络 信 任 管理 系统 忽视 正常 节点 自私 性 和 恶意 
节点 非 合 作 性 的 特点 ,基于 贝 叶 斯 博弈 建立 了 未 知 类 型 节点 和 正常 节点 之 间 的 博弈 模型 ,给 
出 了 一 种 激励 节点 相互 合作 的 机 制 。Duan 等 人 9 中 基于 博弈 论 提 出 了 一 种 信任 度 计算 框 
架 , 其 中 ,给 出 的 风险 策略 模型 (Risk Strategy Model) 有 效 促进 了 传感器 节点 之 间 的 合作 ， 
博弈 论 在 信任 度 获取 过 程 中 的 应 用 降低 了 处 理 成 本 。Guo 等 人 De 在 利用 离散 粒子 群 优化 
方法 建立 节点 并 行 联盟 的 基础 上 ,为 了 最 小 化 任务 的 执行 时 间 和 节点 的 能 量 消 耗 , 基 于 博弈 
论 设计 了 信任 动态 任务 调度 策略 ,提出 了 一 种 有 效 提高 任务 效率 和 网 络 可 靠 性 的 方法 。 

与 上 述 相关 工作 相 比 ,本 章 主 要 关注 无 线 传感器 网 络 中 传感器 节点 间 的 信任 决策 过 程 ， 
通过 构建 相应 的 无 线 传感器 网 络 信任 博弈 模型 来 分 析 信任 决策 的 演化 动力 学 。 其 中 无 线 传 
感 器 网 络 信任 博弈 模型 考虑 了 传感器 节点 的 信任 度 因 素 , 能 反映 出 传感器 节点 在 信任 决策 
过 程 中 的 利益 得 失 。 本 章 最 后 利用 演化 博弈 中 的 复制 动态 动力 学 方程 给 出 达到 演化 稳定 策 
略 的 条 件 , 这 些 结果 将 为 无 线 传感器 网 络 构建 和 设计 信任 管理 系统 提供 理论 基础 。 


4.3 无 线 传感器 网 络 信任 博弈 


4.3.1 演化 博弈 与 无 线 传感器 网 络 信任 的 结合 


无 线 传感器 网 络 信任 与 各 传感器 节点 的 行为 密切 相关 。 无 线 传感器 网 络 传感器 节点 一 
般 处 于 不 确定 的 环境 中 ,具有 相对 变化 的 特点 , 各 传感器 节点 通常 根据 各 相 邻 节点 之 间 的 
信任 值 进 行 相互 之 间 的 信任 策略 决策 ,这 种 由 传感器 节点 选择 信任 策略 到 建立 信任 关系 的 
过 程 将 保证 各 节点 之 间 的 协作 。 各 传感器 节点 通过 与 其 他 传感器 节点 的 反复 交互 , 不 断 地 
学 习 与 模仿 , 来 动态 调整 自身 的 信任 或 不 信任 策略 ,从 而 实现 节点 间 的 信任 或 不 信任 策略 
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选择 的 演化 ,最 终 达到 信任 或 不 信任 策略 的 演化 稳定 ,这 个 过 程 利用 演化 博弈 中 的 复制 动态 
动力 学 方程 能 很 好 地 进行 描述 。 因 此 , 将 演化 博弈 思想 应 用 到 无 线 传感器 网 络 信任 决策 可 
以 深刻 地 揭示 信任 的 特征 及 演化 机 制 ,为 提高 无 线 传感器 网 络 的 安全 性 并 促进 无 线 传感器 
网 络 的 稳定 性 提供 理论 基础 。 

无 线 传感器 网 络 信任 博弈 的 建立 过 程 具有 以 下 特点 : 

CD 各 传感器 节点 的 行为 具有 有 限 理性 。 由 于 无 线 传感器 网 络 信任 博弈 是 多 个 传感器 
节点 之 间 的 博弈 ， 即 某 个 传感器 节点 在 进行 信任 决策 时 , 不 仅 要 考虑 其 他 传感器 节点 加 入 
后 对 博弈 的 影响 ,还 要 考虑 选择 信任 或 不 信任 策略 后 自己 和 其 他 有 利益 关系 的 传感器 节点 
之 间 的 收益 关系 ,而 这 些 信 息 的 处 理 体现 了 有 限 理性 的 特征 。 

(2) 无 线 传感器 网 络 信任 博弈 具有 重复 性 和 非 零 和 性 。 各 传感器 节点 之 间 的 博弈 是 重 
复 进 行 的 ,双方 的 博弈 过 程 都 不 会 改变 支付 矩阵 ， 彼此 都 可 以 看 到 对 方 过 去 的 动作 和 收益 。 
另外 , 当 各 传感器 节点 都 选择 信任 策略 时 ,双方 的 收益 可 以 实现 双赢 ,因此 无 线 传感器 网 络 
信任 博弈 是 非 零 和 的 。 

G) 无 线 传感器 网 络 中 各 传感器 节点 进行 策略 决策 时 具有 模仿 性 。 当 传感器 节点 不 能 
完全 正确 地 判断 自己 行为 得 失 但 知道 前 期 利益 相关 参与 者 的 收益 得 失 的 时 候 , 模 仿 前 期 最 
佳 动作 就 是 它 的 最 佳 策略 。 本 章 后 续 内 容 将 利用 复制 动态 动力 学 方程 分 析 这 种 策略 选择 的 
模仿 性 。 


4.3.2 无 线 传感器 网 络 信任 博弈 模型 


无 线 传感器 网 络 传感器 节点 信任 建立 过 程 中 表现 出 的 有 限 理性 决定 了 个 体 不 是 一 开始 
就 能 找到 最 优 策略 ,它们 会 在 博弈 过 程 中 不 断 学 习 , 通 过 模仿 与 试 错 寻 找 较 好 的 动作 策略 。 
同时 ,这 种 有 限 理 性 意味 着 无 线 传感器 网 络 信 任 博 弈 的 均衡 是 不 断 调整 和 改进 的 过 程 ,而 不 
是 一 次 性 选择 的 结果 ,而 且 即 使 达到 了 某 个 均衡 也 可 能 出 现 偏离 的 现象 。 实 际 上 ,对 无 线 传 
感 器 网 络 信任 博弈 分 析 的 核心 不 仅 是 个 体 的 最 优 策 略 选择 ,还 包括 种 群 个 体 的 策略 调整 过 
Tg .趋势 和 最 终 的 稳定 性 ,其 中 稳定 性 是 指 种 群 个 体 采用 某 个 特定 策略 的 比例 不 变 , 而 非 某 
个 个 体 选择 的 策略 不 变 。 

定义 4-1 无 线 传感器 网 络 信任 博弈 是 一 个 由 四 元 数组 二 =(CP,N,S.U) 组 成 的 对 称 博 
弈 ,其 中 ， 

* 也 表 示 由 大 量 个 体 (传感器 节点 ) 组 成 的 一 个 种 群 (无 线 传 感 器 网 络 ) 。 

。 六 表示 由 传感器 节点 构成 的 个 体 集合 。 

。 S 表示 可 供 传感器 节点 选择 的 策略 集合 ,其 中 S= {s s2) ={Trust, Distrust} 。 

。U 表示 两 个 传感器 节点 在 一 次 博弈 中 得 到 的 收益 形成 的 支付 矩阵 ,其 值 如 表 4-1 


所 示 。 
表 4-1 无 线 传感器 网 络 信任 博弈 的 支付 矩阵 
动作 Trust Distrust 
Trust Gr 十 Gc 十 cT 一 2C Gr+aT—C—L 
Distrust Gp+Ge—C Gp 


在 表示 无 线 传感器 网 络 传感器 节点 的 信任 关系 时 ,各 传感器 节点 信任 值 常 使 用 信任 度 
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进行 度量 ,文献 [129, 132, 133. 170] 都 给 出 了 不 同 的 信任 度 计算 方法 ,本 章 不 考虑 如 何 计 
算 传感器 节点 的 信任 度 ,但 假设 每 个 传感器 节点 都 已 具有 某 个 信任 度 值 ,并 且 其 信任 度 值 越 
高 表示 越 值得 信任 。 

在 无 线 传感器 网 络 信任 博弈 中 ,每 个 传感器 节点 可 以 选择 动作 Trust 或 Distrust。 动 
WE Trust 意味 着 一 个 传感器 节点 和 其 他 节点 进行 交互 时 与 对 方 节点 进行 合作 ,而 选择 动作 
Distrust 将 导致 与 对 方 节点 的 合作 失败 。 下 面 分 别 讨论 各 种 情况 。 

情况 1 进行 交互 的 两 个 传感器 节点 都 选择 动作 Trust。 此 时 每 个 传感器 节点 都 与 对 
方 传感器 节点 合作 ,帮助 对 方 传感器 节点 转发 数据 包 , 从 而 提高 了 自身 的 信任 度 , 所 以 每 个 
传感器 节点 都 得 到 了 信任 度 收 益 Gr。 又 因 对 方 传感器 节点 选择 动作 Trust 而 帮助 转发 数 
据 包 得 到 了 收益 Gc。 另 外 ,为 激励 传感器 节点 选择 动作 Trust, 选 择 动作 Trust 的 传感器 节 
点 将 得 到 aT 的 激励 。 同 时 ,在 发 送 自身 或 转发 对 方 传感器 节点 数据 包 时 导致 能 量 消耗 分 
别 产 生成 本 C, 因 此 ,综合 上 述 分 析 ,每 个 传感器 节点 的 总 收益 为 Gr 十 Gc 一 2C 十 aT。 

情况 2 一 个 传感器 节点 选择 动作 Trust 而 另 一 个 传感器 节点 选择 动作 Distrust. stk 
时 选择 动作 Trust 的 传感器 节点 因 帮 助 对 方 传感器 节点 转发 数据 包 得 到 信任 度 收益 Cr ,并 
且 得 到 aT 的 激励 。 同 时 , 因 转 发 对 方 传感器 节点 数据 包产 生成 本 C, 并 且 因 对 方 传感器 节 
点 选择 动作 Distrust, 导 致 不 合作 使 得 自身 数据 包 无 法 发 送 到 目标 传感器 节点 而 产生 损失 
荆 。 因 此 ,选择 动作 Trust 的 传感器 节点 的 总 收益 为 Gr 一 C 一 L 十 aT。 选 择 动作 Distrust 的 
传感器 节点 因为 不 需要 为 其 他 传感器 节点 转发 数据 包 , 所 以 节省 了 能 量 消 耗 和 延长 了 生命 
期 ,从 而 获得 了 收益 Ce。 同时 因 对 方 传感器 节点 选择 动作 Trust 而 帮助 自己 转发 数据 包 得 
到 了 收益 Gc ,但 又 因 发 送 自身 数据 包产 生成 本 C。 因 此 ,选择 动作 Distrust 的 传感器 节点 
的 总 收益 为 Gp 十 Gc 一 C。 

情况 3 两 个 传感器 节点 都 选择 动作 Distrust。 此 时 将 导致 无 线 传感器 网 络 的 完全 不 
合作 ,但 因为 不 需要 为 其 他 传感器 节点 转发 数据 包 , 所 以 节省 了 能 量 消 耗 和 延长 了 生命 期 ， 
从 而 获得 了 收益 Co。 因 此 ,两 个 传感器 节点 的 总 收益 均 为 Gp。 


4.3.3 无 线 传感器 网 络 信任 演化 稳定 策略 和 动力 学 分 析 


由 于 无 线 传感器 网 络 信任 博弈 模型 中 共 包含 Trust 和 Distrust 两 种 动作 ,因此 在 由 传 
感 器 节点 构成 的 种 群 中 ,可 设 0C = (0 CO .0(0) 表 示 种 群 在 时 刻 上 所 处 的 混合 策略 ,其 中 
01( 四 表示 选择 动作 Trust 的 传感器 节点 数 比例 ,0:(z) 表 示 选 择 动作 Distrust 的 传感器 节点 
数 比例 , 则 有 0 (三 1 一 和 (0 。 为 简化 起 见 , 以 下 记 0 (0D 为 6。 那么 ,由 式 (2-9) 可 得 传感器 
节点 在 时 刻 t 选择 动作 Trust 的 期 望 收 益 为 


ul(s1,0(t)) 一 0(Gr 十 Gc 十 aoT 一 2C) 十 (1 一 0)(Gr 十 aT 一 C 一 工 ) (4-1) 
选择 动作 Distrust 的 期 望 收益 为 
uCsz 0C) = 0Gp + Gc — C) + (1 —00Gp (4-2) 
由 式 (2-10) 得 到 整个 无 线 传感器 网 络 种 群 P 的 平均 期 望 收益 为 
UCO) ,02)) = uls1.00)) + A — Ou sz A(t) ) (4-3) 


因此 ,由 式 (2-12) 可 以 得 到 传感器 节点 信任 演化 的 复制 动态 动力 学 方程 为 
FD — 6 = Qu(s1.00)) — uCOCO .000))) 
6 — @ [Gr +. aT — Gp — C) + 1—0)(Gr +aT —Gp—C—L)] (4-4) 
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令 FF(0) 二 0, 则 复制 动态 动力 学 方程 式 (4-4) 最 多 有 3 个 稳定 状态 , 即 


a —0 (4-5) 
a —1 (4-6) 
0; = (Go +C+L—Gr-aT)/L (4-7) 


其 中 式 (4-7) 表 示 的 稳定 状态 可 能 与 式 (4-5) 或 式 (4-6) 表 示 的 稳定 状态 相同 。 

根据 演化 稳定 策略 的 性 质 ,一 个 稳定 状态 必须 对 动态 系统 的 微小 扰动 具有 稳定 性 。 这 
实际 上 和 微分 方程 中 的 稳定 性 定理 要 求 满足 的 条 件 一 致 ,也 就 是 说 , 若 0 ”是 动态 系统 的 稳 
定 状态 , 则 必须 满足 条 件 FCO" ) 二 0。 如 果 用 相位 图 表示 复制 动态 动力 学 方程 , 那 就 是 与 x 
轴 相 交 且 交点 处 的 切线 斜率 为 负 的 点 为 无 线 传感器 网 络 信 任 博弈 的 演化 稳定 策略 。 

定理 4-1 若 Gr 二 aT 一 Go 一 C>0,Gp 十 C 十 L 一 Gr 一 aT>0 H 2Gr+ 2eT —2Gp—2C— 
L>0, IBA OF —0 Fil OF —1 均 是 无 线 传 感 器 网 络 信任 博弈 的 演化 稳定 策略 且 p(07 = 00 — 
DO =1) FE pCOr =0) Al 9007 二 1) 分 别 表示 传感器 节点 选择 动作 Distrust 和 Trust 的 
概率 。 

证 明 对 式 (4-4) 两 边 求 导 得 

F'(0) —— 310° + (2Gp + 2C -- AL — 2Gr — 2aT)0+ Gr +aT —Gp—C—L (4-8) 

分 别 令 0 为 0 和 1 得 


F'(0 = Gr +aT —Gp-—C—L<0 (4-9) 
F'(D = Gp +C—Gr—aT <0 (4-10) 
由 2G7+2aT—2Gp—2C—L>0 可 得 Gr taT—Gp—C>Gp+C+L—Gr—aT, 


所 以 ,可 得 
0< (Gp --C--L — Gs —aT)/L 
(Gp +C+L — Gy — aT)/(Gz + aT — Gp — C 4- Gp 4- C - L — Gs — aT) 
Gp +C+L—Gr—aT 1 
2(Gp+C+L—Gr—alT) 2 
由 式 (4-9) 至 式 (4-11) 可 得 复制 动态 动力 学 方程 式 (4-4) 的 相位 图 如 图 4-1 所 示 。 
由 图 4-1 npAn.0r —0 A 07 —1 处 切线 斜率 小 于 0, 因 此 信 二 0 和 0i 三 1 均 是 无 线 传 感 
器 网 络 信任 博弈 的 演化 稳定 策略 。 又 由 式 (4-11) 可 知 ,参与 交互 的 传感器 节点 选择 动作 
Distrust 的 概率 小 于 选择 动作 Trust 的 概率 , 即 p(07 —0) — pla; =1). iE, 


(4-11) 


图 4-1 复制 动态 动力 学 方程 相位 图 (一 ) 
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定理 4-1 代表 的 含义 如 下 : 当 参与 交互 的 第 一 个 传感器 节点 选择 动作 Trust 时 ,由 于 

Gr + Gc +aT — 2€ — (Gp + Gc — C) Gr +aT —Gp—C>0 (4-12) 

即 参与 交互 的 第 二 个 传感器 节点 选择 动作 Trust 的 收益 大 于 选择 动作 Distrust 的 收益 ; 当 
参与 交互 的 第 一 个 传感器 节点 选择 动作 Distrust 时 ,由 于 

Gr 十 aoT —C—L—Gp «0 (4-13) 

即 参与 交互 的 第 二 个 传感器 节点 选择 动作 Distrust 的 收益 大 于 选择 动作 Trust 的 收益 。 

0: —0 0: = 1 均 是 无 线 传感器 网 络 信任 博弈 的 演化 稳定 策略 ,意味 着 动作 Trust 和 

Distrust 都 有 可 能 被 参与 交互 的 传感器 节点 选择 。 
定理 42 di GrtaT—Gp—C>0.Gp+C+L—Gr—aT>0 H 2Gr+ 2aT —2Gp—2C— 
L-<0, W 0r =0 flo: 二 1 均 是 无 线 传感器 网 络 信任 博弈 的 演化 稳定 策略 且 pCO? = 0) > 


bz 一 1)。 
WEBB 与 定理 4-1 的 证 明 过 程 类 似 , 可 得 
F'(0) = Grt+eT —Go —C—L «0 (4-14) 
F(D = G» -C— Gr —aT <0 (4-15) 
二 < (Gy CH L- Gr -aTY/L <1 (4-16) 


由 式 (4-14) 至 式 (4-16) 可 得 传感器 节点 信任 演化 的 复制 动态 动力 学 方程 式 (4-4) 的 相位 图 
如 图 4-2 所 示 。 


图 4-2 复制 动态 动力 学 方程 相位 图 (二 ) 


由 图 4-2 nf .0r —0 I 07 —1 AEUJZE RENT 0. FE 0r —0 和 0i —1 均 是 无 线 传 感 
器 网 络 信任 博弈 的 演化 稳定 策略 。 又 由 式 (4-16) 可 知 ,参与 交互 的 传感器 节点 选择 动作 
Distrust 的 概率 大 于 选择 动作 Trust 的 概率 , 即 pO =0) >p =1). 证 毕 。 
定理 4-3. 4 GrtaT—Gp—C<0, W OF =0 是 无 线 传 感 器 网 络 信任 博弈 的 演化 稳定 
策略 。 
证 明 易 得 
F(0) = Gr +aT —Gy—C—L-—0 (4-17) 
F'(A) =Gp +C—Gr—aT > 0 (4-18) 
由 式 (4-17)、 式 (4-18) 可 得 传感器 节点 信任 演化 的 复制 动态 动力 学 方程 式 (4-4) 的 相 
位 图 如 图 4-3 所 示 。 
由 图 4-3 WA. RA OF —0 处 切线 斜率 小 于 0, 因 此 只 有 全 三 0 是 无 线 传 感 器 网 络 信任 


第 4 章 ， 基于 演化 博弈 的 无 线 传感器 网 络 节点 信任 演化 动力 学 研究 | 


博弈 的 演化 稳定 策略 。i 


图 4-3 复制 动态 动力 学 方程 相位 图 (三 ) 


定理 4-3 表明 ,无 论 参与 交互 的 第 一 个 传感器 节点 选择 动作 是 Distrust 还 是 Trust, 参 
与 交互 的 第 二 个 传感器 节点 选择 动作 Trust 的 收益 总 是 小 于 选择 动作 Distrust 的 收益 。 最 
终 选 择 动作 Trust 的 参与 交互 的 传感器 节点 数 比 例会 稳定 在 多 王 0 处 , 即 都 选择 动作 
Distrust, 这 将 导致 整个 无 线 传感器 网 络 中 的 传感器 节点 都 处 在 互相 不 合作 的 状态 。 
定理 4-4 d; Gr-FaT— Gp — C— L770, M 07 =1 是 无 线 传感器 网 络 信任 博弈 的 演化 稳 
定 策略 。 
证 明 易 得 
F’(0) = Gr+aT —Gp—C-—L>0 (4-19) 
F'(D = Gp +C—Gr—aT <Gp+C+L—Gr—aT <0 (4-20) 
由 式 (4-19)、 式 (4-20) 可 得 传感器 节点 信任 演化 的 复制 动态 动力 学 方程 式 (4-4) 的 相位 图 
如 图 4-4 所 示 。 
由 图 4-4 可 知 ,只 有 级 ==1 处 切线 斜率 小 于 0, 因此 只 有 07 = 1 是 无 线 传 感 器 网 络 信任 
博弈 的 演化 稳定 策略 。 证 毕 。 
定理 4-4 表明 ,无 论 参与 交互 的 第 一 个 传感器 节点 选择 动作 是 Distrust 还 是 Trust, 参 
与 交互 的 第 二 个 传感器 节点 选择 动作 Trust 的 收益 总 是 大 于 选择 动作 Distrust 的 收益 。 最 
终 选择 动作 Trust 的 参与 交互 的 传感器 节点 数 比例 会 稳定 在 07 — 1 处 , 即 都 选择 动作 
Trust。 实 际 上 , 当 定 理 4-4 的 条 件 满 足 时 ,动作 Trust 已 成 为 无 线 传感器 网 络 信任 博弈 的 
严格 占 优 策略 。 


4-4 复制 动态 动力 学 方程 相位 图 (四 ) 
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由 定理 4-1 至 定理 4-4 可 知 ,要 促使 参与 交互 的 传感器 节点 选择 动作 Trust, 从 而 保证 
无 线 传感器 网 络 的 安全 性 和 稳定 性 ,设计 的 信任 管理 机 制 应 满足 定理 4-1 或 定理 4-4 的 条 
件 。 引 入 的 aT 使 传感器 节点 在 信任 博弈 的 过 程 中 增加 了 激励 机 制 , 当 定理 4-1 条 件 满 足 
并 逐步 增 大 aT 时 ,03 二 (Go 十 C 十 L 一 Gr 一 aT)/L>0, 这 意味 着 随 着 无 线 传感器 网 络 信 任 
博弈 的 进行 ,选择 动作 Distrust 的 参与 交互 的 传感器 节点 数 比 例 将 逐渐 降低 ,最 后 达到 一 个 
稳定 的 低 比 例 水 平 。 当 aT 增 大 到 一 定 程度 使 得 定理 4-4 的 条 件 满足 时 ,整个 无 线 传感器 
网 络 将 处 于 理想 的 稳定 状态 ,此 时 无 论 参与 交互 的 传感器 节点 开始 选择 何 种 策略 ,最 终 都 将 
选择 动作 Trust 作为 稳定 状态 。 对 于 定理 4-2 和 定理 4-3 满足 的 条 件 是 设计 无 线 传感器 网 
络 信任 管理 机 制 时 必须 要 避免 的 情况 ,因为 它们 意味 着 参与 交互 的 传感器 节点 选择 动作 
Distrust 的 概率 大 于 选择 动作 Trust 的 概率 或 将 选择 动作 Distrust 作为 最 终 的 稳定 状态 ， 
这 会 导致 无 线 传感器 网 络 处 于 不 稳定 状态 。 


4.4 实验 


实验 环境 使 用 MATLAB R2010a, 通 过 设置 Gr Go CL aT 不同 的 取 值 ,来 验证 无 线 
传感器 网 络 信任 博弈 中 的 演化 稳定 策略 和 激励 机 制 所 起 的 作用 。 实 验 分 成 两 组 : 第 一 组 使 
得 设置 的 博弈 参数 取 值 分 别 满足 定理 4-1 至 定理 4-4 的 条 件 ,再 观察 无 线 传感器 网 络 传 感 
器 节点 信任 演化 曲线 的 变化 情况 ; 第 二 组 通过 改变 aT 值 ,再 观察 激励 机 制 在 无 线 传感器 网 
络 传感器 节点 信任 演化 过 程 中 起 到 的 作用 。 


4.4.1 演化 稳定 策略 定理 的 数值 验证 


为 满足 定理 4-1 至 定理 4-4 的 条 件 ,分 别 设 定 : OGr=11.Gp=3.C=8.aT —3.L—5; 
@Gr=11,Gp=5,C=8,aT=3,L=5; @Gr=9,Gp=5,C=8,aT=3,L=5; @Gr=13, 
Gp—3.C—8.aT—3.L—4, [8d 4-5 至 图 4-8 分 别 给 出 了 4 种 情况 下 无 线 传感器 网 络 传 感 
器 节点 信任 演化 的 变化 曲线 。 

图 4-5 中 博弈 参数 的 取 值 满足 定理 4-1 的 条 件 。 从 图 中 可 以 看 出 , 当 传感器 节点 信任 
演化 的 复制 动态 动力 学 方程 式 (4-4) 的 初始 值 为 0.401, 即 40.1% 的 无 线 传感器 网 络 传感器 
节点 选择 动作 Trust 时 ,参与 交互 的 传感器 节点 通过 试 错 和 模仿 ,不 断 调整 自己 的 策略 , 约 
经 过 38 次 博弈 ,最 终 选 择 动作 Trust 的 参与 交互 的 传感器 节点 数 比 例 稳定 在 OF =1 处。 这 
意味 着 初始 无 线 传感器 网 络 传感器 节点 选择 动作 Trust 的 比例 数 只 要 大 于 40. 1%, 则 参与 
交互 的 传感器 节点 最 终 都 会 选择 动作 Trust。 当 传感器 节点 信任 演化 的 复制 动态 动力 学 方 
程式 (4-4) 的 初始 值 为 0. 399, 即 39. 9% 的 无 线 传感器 网 络 传感器 节点 选择 动作 Trust 时 ， 
约 经 过 44 次 博弈 ,最 终 选择 动作 Trust 的 参与 交互 的 传感器 节点 数 比 例 稳定 在 OT 一 0。 这 
意味 着 初始 无 线 传感器 网 络 传感器 节点 选择 动作 Trust 的 比例 数 只 有 小 于 39. 9% ,参与 交 
互 的 传感器 节点 最 终 才 会 选择 动作 Distrust。 这 些 实验 结果 反映 出 多 三 0 和 好 三 1 均 是 无 
线 传感器 网 络 信任 博弈 的 演化 稳定 策略 且 pO =0)<p(OF 二 1)。 

图 4-6 中 博弈 参数 的 取 值 满足 定理 4-2 的 条 件 。 从 图 中 可 以 看 出 , 当 传感器 节点 信任 
演化 的 复制 动态 动力 学 方程 式 (4-4) 的 初始 值 为 0.801, 即 80.1% 的 无 线 传感器 网 络 传感器 
节点 选择 动作 Trust 时 , 约 经 过 30 次 博弈 ,最 终 选择 动作 Trust 的 参与 交互 的 传感器 节点 
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图 4-5 传感器 节点 信任 演化 曲线 (一 ) 


数 比例 稳定 在 02 = 1 处 。 当 传感器 节点 信任 演化 的 复制 动态 动力 学 方程 式 (4-4) 的 初始 值 
为 0.799, 即 79.9% 的 参与 交互 的 传感器 节点 选择 动作 Trust 时 , 约 经 过 56 次 博弈 ,最 终 选 
择 动作 Trust 的 参与 交互 的 传感器 节点 数 比例 稳定 在 07 二 0。 这 些 实验 结果 反映 出 07 二 0 
和 = 1 均 是 无 线 传感器 网 络 信任 博弈 的 演化 稳定 策略 且 pC OY =0) > (07 —D. 
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图 4-6 传感器 节点 信任 演化 曲线 (二 ) 


图 4-7 中 博弈 参数 的 取 值 满足 定理 4-3 的 条 件 。 从 图 中 可 看 出 ,即使 将 传感器 节点 信 
任 演化 的 复制 动态 动力 学 方程 式 (4-4) 的 初始 值 设 定 为 0.999， 即 99. 9% 的 无 线 传感器 网 
络 传感器 节点 初始 选择 动作 Trust', 但 约 经 过 58 次 博弈 ,最 终 选择 动作 Trust 的 参与 交互 的 
传感器 节点 数 比例 稳定 在 多 一 0。 实 验 结果 反映 出 多 一 0 是 无 线 传感器 网 络 信任 博弈 的 演 
化 稳定 策略 。 

图 4-8 中 博弈 参数 的 取 值 满足 定理 4-4 的 条 件 。 从 图 中 可 看 出 ,只 要 将 传感器 节点 信 
任 演化 的 复制 动态 动力 学 方程 式 (4-4) 的 初始 值 设 定 为 0.001, BI 0.1% 的 无 线 传感器 网 络 
传感器 节点 初始 选择 动作 Trust, 约 经 过 53 次 博弈 ,最 终 选择 动作 Trust 的 参与 交互 的 传 感 
器 节点 数 比例 就 能 稳定 在 07 二 1。 实 验 结果 反映 出 OF = 1 是 无 线 传感器 网 络 信任 博弈 的 演 
化 稳定 策略 。 
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图 4-7 传感器 节点 信任 演化 曲线 (三 ) 
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图 4-8 传感器 节点 信任 演化 曲线 (四 ) 


4.4.2 激励 机 制 的 效果 


为 了 说 明 激励 机 制 在 促进 传感器 节点 选择 动作 Trust 上 所 起 的 作用 ,分 别 设 定 : OGr= 
11, Gp=3, C=8, aT—3. L=5; @Gr=11, Gp=3, C=8. aT—3.5. L=5. [8 4-9 4H 
了 无 线 传感器 网 络 传感器 节点 不 同 初 始 选择 动作 Trust 比例 数 下 的 信任 演化 曲线 。 图 4-10 
给 出 了 无 线 传感器 网 络 传感器 节点 相同 初始 选择 动作 Trust 比例 数 下 信任 向 02 二 1 演化 的 
变化 曲线 。 

从 图 4-9 nf DUEB 04 aT — 3 时 ,无 线 传感器 网 络 传感器 节点 信任 演化 的 临界 值 为 
0. 401 ,而 当 aT=3.5 时 ,临界 值 变 为 0.301。 这 意味 着 当 aT 值 从 3 增加 到 3. 5 后 ,即使 参 
与 交互 的 传感器 节点 初始 选择 动作 Trust 比例 数 由 40. 1% 降 为 30. 1% ,但 随 着 博弈 的 进 
行 ,最 终 OF —1 仍 将 作为 无 线 传感器 网 络 信 任 博弈 的 演化 稳定 策略 。 

从 图 4-10 中 可 以 看 出 ,在 传感器 节点 信任 演化 的 复制 动态 动力 学 方程 式 (4-4) 设 置 相 
同 初始 值 0. 401 情况 下 , 当 aT=3 时 ,要 经 过 约 38 次 博弈 ,而 当 aT 二 3.5 时 ,只 需 经 过 约 20 
次 博弈 即 能 达到 系统 稳定 点 2 二 1。 很 显然 .aT= 二 3. 5 对 应 的 传感器 节点 信任 演化 曲线 收 
敛 到 系统 稳定 状态 的 速度 明显 快 于 aT — 3 对 应 的 曲线 。 

图 4-9 和 图 4-10 的 实验 结果 反映 出 激励 机 制 在 促进 传感器 节点 选择 动作 Trust 上 明 
显 起 作用 ,也 就 是 说 ,通过 采用 与 信任 度 绑 定 的 激励 机 制 ,奖励 信任 合作 ,将 有 利于 无 线 传 感 
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器 网 络 向 选择 动作 Trust( 即 信任 策略 ) 的 稳定 状态 演化 ,从 而 保障 无 线 传 感 器 网 络 的 稳定 
和 安全 。 
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图 4-9 激励 机 制 下 的 传感器 节点 信任 演化 曲线 (一 ) 
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图 4-10 激励 机 制 下 的 传感器 节点 信任 演化 曲线 (二 ) 


4.5 小 结 


基于 信任 的 安全 机 制 是 无 线 传感器 网 络 中 重要 的 安全 技术 之 一 。 这 种 无 线 传感器 网 络 
传感器 节点 间 的 信任 关系 能 帮助 各 传感器 节点 建立 信心 ,降低 合作 风险 ,从 而 保证 整个 无 线 
传感器 网 络 的 安全 和 稳定 。 本 章 利用 演化 博弈 针对 参与 交互 的 传感器 节点 的 信任 决策 过 程 
所 建立 的 模型 反映 了 参与 交互 的 传感器 节点 在 选择 不 同 策略 时 的 收益 得 失 , 能 体现 无 线 传 
感 器 网 络 传感器 节点 行为 的 有 限 理 性 ,博弈 的 非 零 和 性 和 重复 性 ,以 及 参与 交互 的 传感器 节 
点 选择 动作 Trust 的 模仿 性 。 与 信任 度 绑 定 的 激励 机 制 有 效 地 降低 了 无 线 传感器 网 络 传 感 
器 节点 初始 选择 动作 Trust 比例 数 的 要 求 ,提高 了 系统 向 信任 稳定 状态 演化 的 收敛 速度 。 
给 出 的 无 线 传 感 器 网 络 信任 博弈 的 复制 动态 动力 学 方程 为 寻找 种 群 的 演化 稳定 策略 葛 定 了 
基础 ,得 到 了 在 不 同 参 数 条 件 下 ,参与 交互 的 传感器 节点 如 何 通过 不 断 地 模仿 与 试 错 来 动态 
调整 自己 的 信任 决策 ,最 终 达 到 系统 的 稳定 ,从 而 为 无 线 传感器 网 络 信任 机 制 的 设计 提供 了 
理论 基础 。 
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本 章 扩展 经 典 流行 病理 论 使 之 适合 无 线 传感器 网 络 恶意 程序 传播 现状 ,并 引入 不 同 的 
参数 来 揭示 无 线 传感器 网 络 恶意 程序 传播 过 程 。 然 后 将 恶意 程序 在 无 线 传感器 网 络 传播 时 
“无 线 传感器 网 络 系统 ”和 ”恶意 程序 "之 间 的 决策 问题 看 作 优化 控制 问题 ,建立 相应 的 微分 
博弈 模型 ,在 程序 ”动态 改变 其 策略 的 前 提 下 ,得 到 “无 线 传感器 网 络 系统 "的 最 优 控制 
策略 ,为 无 线 传感器 网 络 恶意 程序 传播 的 防御 机 制 的 设计 奠定 理论 基础 。 


5.1 引言 


近期 研究 07 2 表明 ,恶意 程序 (Malware) 在 由 大 量 传感器 节点 组 成 的 无 线 传 感 器 网 
络 中 容易 传播 流行 。 例 如 ,Yang 等 人 中 通过 在 Mica2 节点 上 的 实验 ,说 明了 在 无 线 传 感 
器 网 络 中 传播 传感器 节点 蠕虫 (Sensor Wormy) 的 方便 性 。 实 际 上 ,这 种 恶意 程序 的 易 传 播 
性 是 与 无 线 传感器 网 络 的 特点 密切 相关 的 。 一 方面 ,由 于 传感器 节点 资源 的 限制 使 得 它们 
没有 足够 的 能 力 保护 自身 的 系统 安全 ,与 传统 的 计算 机 系统 相 比 ,它们 更 容易 因 恶 意 程序 的 
攻击 而 被 捕获 。 在 同一 个 无 线 传感器 网 络 中 的 传感器 节点 一 般 在 其 硬件 和 软件 方面 都 具有 
同 构 性 ,一 旦 有 - | 个 传感器 节点 ,这 种 同 构 性 将 使 得 所 有 的 传感器 节点 易 
于 被 同一 种 恶意 程序 攻陷 。 另 一 方面 ,当前 一 些 不 需要 物理 连接 只 需要 通过 空气 传播 的 重 
编程 协议 ( i Protocol) 已 经 被 提出 并 用 于 传感器 节点 的 重 编 程 
(Reprogramming) 和 重 配 置 (Reconfigure) ,典型 的 主要 有 Trickle, Firecracker, Deluge 和 
MNP"”I。 重 编程 协议 能 为 传感器 节点 提供 系统 软件 分 发 和 更 新 功能 ,尤其 对 那些 部 署 后 
不 能 再 进行 人 工 操作 的 节点 而 言 , 这 种 重 编程 技术 对 它们 来 说 是 一 项 必 不 可 少 的 基础 服务 。 
然而 ,这 种 技术 同时 也 给 恶意 程序 在 整个 无 线 传感器 网 络 中 的 传播 提供 了 一 条 途径 。 

恶意 程序 一 旦 利用 传感器 节点 的 系统 软件 漏洞 在 无 线 传 感 器 网 络 中 广泛 传播 后 ,它们 
就 能 窃听 传感器 节点 感知 的 数据 ,甚至 可 以 采用 耗 尽 传感器 节点 能 量 的 方法 使 传感器 节点 
完全 处 于 瘫痪 状态 ,从 而 严重 影响 整个 无 线 传感器 网 络 数 据 的 机 密 性 和 整个 网 络 工 作 的 稳 
定性 。 因 此 ,本 章 主要 研究 以 下 两 个 关键 问题 : 

(1) 无 线 传感器 网 络 中 的 恶意 程序 是 如 何 传播 的 ? 

C2) 如 何 控制 无 线 传 感 器 网 络 中 的 恶意 程序 传播 ?什么 样 的 策略 是 控制 恶意 程序 传播 
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的 最 优 控制 策略 ? 

为 了 得 到 控制 无 线 传感器 网 络 中 恶意 程序 传播 的 最 优 策略 ,首先 应 考虑 建立 无 线 传 感 
器 网 络 恶意 程序 的 传播 模型 。 因 为 流行 病理 论 (Epidemic Theory) 已 成 功 应 用 于 传统 计算 
机 网 络 中 的 蠕虫 传播 中、 错误 传递 (Fault Propagation) 9 和 信息 扩散 中 的 流行 病 算 法 
(Epidemic Algorithm)" 等 领域 的 建 模 , 所 以 本 章 考虑 利用 流行 病理 论 解决 无 线 传 感 
器 网 络 中 恶意 程序 传播 的 建 模 问题 。 实 际 上 ,流行 病理 论 早期 主要 用 于 研究 人 类 社会 中 的 
传染 病 传 播 问 题 ,利用 数学 公式 明确 地 表达 病因 、 宿 主 和 环境 之 间 的 传染 病 流行 规律 ,从 理 
论 上 探讨 如 何 控制 传染 病 的 传播 问题 "”。 在 流行 病理 论 中 ,根据 各 种 传染 病 的 不 同情 况 ， 
每 个 个 体 都 对 应 到 某 一 状态 。 这 些 状态 主要 有 易 感 (Susceptible，S) ,被 感染 (Infected, I), 
HHR (Exposed, E) BEH (Recovered. R) 等 ,其 中 状态 S 表示 个 体 处 于 当前 未 被 病毒 感染 但 
属于 易 感 的 状态 ; 状态 工 表示 个 体 当 前 已 被 病毒 感染 并 能 将 病毒 传染 给 别 的 个 体 的 状态 ; 
状态 R 表示 被 病毒 感染 的 个 体 经 过 治疗 或 易 感 个 体 经 过 预防 后 对 同一 种 病毒 已 具有 免疫 
力 的 状态 ; 状态 E 表示 个 体 当前 已 被 病毒 感染 但 无 病毒 传播 能 力 的 状态 。 相 应 地 ,根据 不 
同 传染 病 的 特性 ,研究 者 组 合 上 述 的 不 同 状态 ,得 到 了 不 同 的 流行 病 模型 STON) 
SIRT 8) (SETR 5 等。 由 于 网 络 环境 下 的 信息 传播 与 传染 病 传 播 有 类 似 的 特性 ,所 以 
可 以 考虑 将 原先 适用 于 流行 病 传播 领域 的 模型 借鉴 到 不 同 的 网 络 环境 中 。 

在 恶意 程序 传播 模型 建立 的 同时 还 需 考 虑 无 线 传感器 网 络 攻 防 双方 的 决策 问题 。 对 无 
线 传感器 网 络 这 个 系统 而 言 , 安 装 安全 补丁 是 一 种 通用 地 保障 整个 网 络 系统 安全 运行 的 方 
法 ,这 种 方法 一 方面 可 通过 修复 系统 漏洞 阻止 容易 感染 恶意 程序 的 传感器 节点 被 感染 , 男 一 
方面 也 能 治愈 被 恶意 程序 感染 的 传感器 节点 并 使 它 对 同一 种 恶意 程序 具有 免疫 力 。 无 线 传 
感 器 网 络 系统 也 可 以 采取 让 已 感染 恶意 程序 的 传感器 节点 强制 进入 休眠 状态 ,从 而 避免 恶 
意 程序 的 传播 。 然 而 ,这 些 方法 都 不 可 避免 地 会 对 无 线 传感器 网 络 的 正常 运行 带 来 干扰 。 
例如 ,安装 安全 补丁 的 过 程 将 消耗 无 线 传感器 网 络 本 来 就 低 的 带宽 从 而 影响 正常 数据 的 传 
输 ; 过 多 的 传感器 节点 强制 进入 休眠 状态 将 影响 整个 网 络 的 数据 通信 。 因 此 ,无 线 传感器 
网 络 系统 面临 的 一 个 挑战 就 是 如 何在 保证 正常 通信 和 最 小 化 恶意 程序 影响 之 间 选 择 最 优 的 
控制 策略 。 对 恶意 程序 而 言 , 它 可 以 传染 更 多 的 易 感 传感器 节点 从 而 可 以 窃听 更 多 由 传 感 
器 节点 感知 的 数据 信息 ,也 可 以 直接 使 被 感染 的 传感器 节点 失去 正常 功能 从 而 给 整个 无 线 
传感器 网 络 造成 瞬时 的 高 损失 。 但 是 ,传染 太 多 的 易 感 传感器 节点 ,容易 被 无 线 传感器 网 络 
系统 发 现 导致 其 采取 预防 措施 ,恶意 程序 也 不 能 从 已 失去 功能 的 传感器 节点 上 获取 需要 的 
信息 或 失去 利用 被 感染 的 传感器 节点 传播 恶意 程序 的 机 会 。 因 此 ,恶意 程序 也 面临 在 何 时 
传播 自己 和 是 否 使 被 感染 传感器 节点 失去 功能 方面 的 最 优 控制 策略 选择 问题 。 

博弈 论 是 解决 优化 策略 问题 的 有 效 方法 之 一 ,根据 不 同 博弈 环境 常 需要 考虑 不 同 的 博 
弈 类 型 。 其 中 微分 博弈 通常 关注 连续 时 间 的 决策 演化 过 程 ,并 采用 微分 等 式 描述 系统 的 连 
续 动 态 变 化 ,这 些 特点 与 恶意 程序 传播 过 程 中 表现 出 的 特性 完全 一 致 ,因此 这 种 动态 博弈 类 
型 非常 适合 用 于 说 明 恶 意 程序 传播 过 程 中 的 收益 得 失 。 

本 章 首先 扩展 经 典 流行 病理 论 使 之 适合 无 线 传感器 网 络 恶意 程序 传播 现状 ,并 引入 不 
同 的 参数 来 揭示 无 线 传 感 器 网 络 恶意 程序 传播 过 程 。 其 中 ,对 经 典 流行 病理 论 的 扩展 主要 
根据 无 线 传 感 器 网 络 的 特性 展开 ,这 些 特性 包括 : 传感器 节点 为 节省 能 量 消耗 而 需要 周期 
性 地 进入 休眠 状态 ,那些 被 恶意 程序 感染 的 传感器 节点 在 进入 休眠 状态 后 不 能 将 恶意 程序 
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传播 到 其 他 传感器 节点 ; 而 处 于 任何 状态 的 传感器 节点 都 会 在 它们 的 能 量 消耗 殖 尽 时 失去 
所 有 功能 。 然 后 本 章 将 恶意 程序 在 无 线 传感器 传播 时 "无线 传感器 网 络 系统 ”和 “恶意 程序 ” 
之 间 的 决策 问题 看 作 优 化 控制 问题 ,并 利用 微分 博弈 为 "无线 传感器 网 络 系统 "得 到 最 优 控 
制 策略 ,这 种 策略 将 在 考虑 "恶意 程序 "最 大 化 破坏 无 线 传感器 网 络 的 前 提 下 ,最 小 化 “无 线 
传感器 网 络 系统 ”和 ”恶意 程序 "产生 的 成 本 。 

在 扩展 作者 前 期 工作 "的 基础 上 ,本 章 的 工作 主要 包括 以 下 内 容 : 

(1) 通过 扩展 经 典 流行 病 模型 得 到 一 种 新 的 流行 病 传播 模型 ,这 种 模型 能 准确 地 反映 
出 传感器 节点 因 节 省 能 量 消耗 而 周期 性 地 进入 休眠 状态 以 及 传感器 节点 在 能 量 耗 尽 时 将 失 
去 功能 等 特性 。 

(2) 建立 一 个 “无 线 传感器 网 络 系 统 " 和 “恶意 程序 ”之 间 的 零 和 “恶意 程序 防御 微分 博 
弈 "模型 ,该 模型 能 体现 “无 线 传感器 网 络 系统 "和 "恶意 程序 "双方 在 恶意 程序 传播 时 的 交互 
情况 ,能 反映 它们 之 间 的 收益 得 失 。 

(3) 在 考虑 “恶意 程序 ”最 大 化 破坏 无 线 传感器 网 络 的 前 提 下 ,为 “无 线 传 感 器 网 络 系 
统 " 得 到 了 最 优 的 控制 策略 ,这 些 策略 能 明显 地 抑制 恶意 程序 在 无 线 传感器 网 络 中 的 传播 ， 
同时 因 计 算 方 便 而 易于 在 资源 有 限 的 传感器 节点 上 实现 。 

本 章 其 余 章节 安排 如 下 : 5.2 节 介 绍 相关 工作 ; 5. 3 节 讨论 要 研究 的 无 线 传感器 网 络 
环境 并 通过 扩展 经 典 流行 病 模型 得 到 一 种 适合 描述 无 线 传感器 网 络 中 恶意 程序 传播 的 流行 
病 模型 ; 5. 4 节 给 出 恶意 程序 防御 微分 博弈 模型 的 定义 ,并 描述 如 何 得 到 无 线 传感器 网 络 
系统 的 最 优 控制 策略 ;5. 5 节 通 过 实验 揭示 无 线 传感器 网 络 恶意 程序 流行 病 模型 中 各 状态 
的 动态 演化 过 程 ,并 说 明 “ 无 线 传感器 网 络 系统 "和 “恶意 程序 ”采取 的 控制 策略 对 无 线 传 感 
器 网 络 恶意 程序 传播 的 影响 ,此 外 ,还 验证 了 无 线 传感器 网 络 系统 最 优 控制 策略 的 有 效 性 ; 
5.6 节 给 出 本 章 小 结 。 

本 章 涉 及 的 符号 含义 如 下 : 

NN 表示 整个 无 线 传感器 网 络 的 传感器 节点 数 。 

表示 传感器 节点 在 撒播 区 域 上 的 分 布 密度 。 

r 表示 传感器 节点 信号 的 最 大 发 射 距 离 。 

S 表示 传感器 节点 存在 被 恶意 程序 发 现 的 硬件 或 系统 漏洞 ,处 于 易 被 恶意 程序 感染 的 


S 表 示 传 感 器 节点 存在 被 恶意 程序 发 现 的 硬件 或 系统 漏洞 但 正在 休眠 的 状态 。 
工 表示 传感器 节点 处 于 已 被 恶意 程序 感染 的 状态 。 


I 表示 传感器 节点 处 于 已 被 恶意 程序 感染 且 正 在 休眠 的 状态 。 
R 表示 传感器 节点 处 于 对 恶意 程序 有 免疫 力 的 状态 。 


尺 表 示 传 感 器 节点 处 于 对 恶意 程序 有 免疫 力 且 正在 休眠 的 状态 。 
D 表示 传感器 节点 处 于 完全 失去 所 有 功能 的 状态 。 

To 表示 初始 已 感染 恶意 程序 节点 数 。 

S(D) 表 示 传 感 器 节点 在 时 刻 : 处 于 状态 S 的 数量 。 


S(D) 表 示 传 感 器 节点 在 时 刻 上 处 于 状态 S 的 数量 。 
Ti) 表示 传 感 器 节点 在 时 刻 1 处 于 状态 了 的 数量 。 
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TCD) 表示 传感器 节点 在 时 刻 ! 处 于 状态 本 的 数量 。 
R(1) 表 示 传感器 节点 在 时 刻 ! 处 于 状态 RR 的 数量 。 


及 (1) 表 示 传感器 节点 在 时 刻 1 处 于 状态 R 的 数量 。 
D(1) 表 示 传 感 器 节点 在 时 刻 c 处 于 状态 D 的 数量 。 
ys 表示 传感器 节点 从 状态 S 转换 到 了 的 概率 。 


ys 表示 传感器 节点 从 状态 S 转换 到 S 的 概率 。 
Ys 表示 传感器 节点 从 状态 S 转换 到 尺 的 概率 。 
Ysp 表 示 传 感 器 节点 从 状态 S 转换 到 的 概率 。 


yi 表示 传感器 节点 从 状态 1 转换 到 本 的 概率 。 
Yr 表示 传感器 节点 从 状态 I 转换 到 R 的 概率 。 
Yo 表示 传感器 节点 从 状态 I 转换 到 DD 的 概率 。 


) 厂 表示 传感器 节点 从 状态 R 转换 到 R 的 概率 。 
ym 表 示 传 感 器 节点 从 状态 R 转换 到 的 概率 。 


ys 表示 传感器 节点 从 状态 S 转换 到 S 的 概率 。 
Yn 表示 传感器 节点 从 状态 转换 到 了 的 概率 。 


YK 表示 传感器 节点 从 状态 R 转 换 到 RR 的 概率 。 

) 各 (0 表示 无 线 传感器 网 络 系统 在 时 刻 :将 状态 S. 的 传感器 节点 转换 为 状态 及 的 主观 
努力 程度 。 

) 俏 (1) 表 示 无 线 传感器 网 络 系统 在 时 刻 上 将 状态 工 的 传感器 节点 转换 为 状态 尺 的 主观 
努力 程度 。 


六 (0 表示 无 线 传感器 网 络 系统 在 时 刻 : 将 状态 的 传感器 节点 转换 为 状态 三 的 主观 努 
力 程度 。 

VI ORRE RFEA 1 将 状态 S 的 传感器 节点 转换 为 状态 工 的 主观 努力 程度 。 

小 (4) 表示 恶意 程序 在 时 刻 1 将 状态 了 的 传感器 节点 转换 为 状态 D 的 主观 努力 程度 。 

了 表示 本 章 定义 的 无 线 传感器 网 络 恶意 程序 防御 微分 博弈 。 

人 表示 博弈 的 参与 者 集合 。 

7 夸 示 参与 者 无 线 传感器 网 络 系统 可 用 的 控制 策略 集合 。 

) 襄 示 参 与 者 恶意 程序 可 用 的 控制 策略 集合 。 

(表示 两 个 参与 者 控制 策略 集合 的 笛 卡 儿 积 。 

Sx) ,p(t1) wv) RORIS RC. 

x( 四 表示 七 维 的 状态 向 量 。 

FRAMKAS BRR .- 

JUD :yx(D) 表 示 反 映 无 线 传 感 器 网 络 QoS 的 成 本 函数 。 

gX uD vi) 表示 在 时 刻 上 的 瞬时 成 本 。 

qdCx(T)) 表 示 逗 留 期 了 结束 时 的 终 期 成 本 。 

cr 表示 被 感染 传感器 节点 产生 的 瞬时 成 本 对 应 的 系数 。 
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cp 表示 被 感染 传感器 节点 因 被 恶意 程序 故意 杀 死 产生 的 瞬时 成 本 对 应 的 系数 。 

cb 表示 终 期 成 本 对 应 的 系数 。 

cm 表示 将 被 感染 传感器 节点 修复 后 产生 的 收益 对 应 的 系数 。 

cR 表示 安装 安全 补丁 过 程 中 产生 的 瞬时 成 本 对 应 的 系数 。 

cr 表示 将 被 感染 传感器 节点 转换 为 休眠 状态 后 产生 的 收益 对 应 的 系数 。 

cs 表示 将 易 感 传感器 节点 转换 为 休眠 状态 后 产生 的 瞬时 成 本 对 应 的 系数 。 

cR 表 示 将 康复 传感器 节点 转换 为 休眠 状态 后 产生 的 瞬时 成 本 对 应 的 系数 。 

c7 表 示 隔 离 被 感染 传感器 节点 产生 的 收益 对 应 的 系数 。 

p (表示 无 线 传感器 网 络 系统 的 最 优 控制 策略 。 

v! (1 表示 恶意 程序 的 最 优 控制 策略 。 

Y 表 示 无 线 传感器 网 络 恶意 程序 防御 微分 博弈 达到 鞍点 时 的 价值 函数 值 。 

x (1 表示 无 线 传感器 网 络 恶 意 程序 防御 微分 博弈 达到 鞍点 时 最 优 的 状态 轨迹 (State 
Trajectory) 。 

S? (0 表示 无 线 传 感 器 网 络 恶意 程序 防御 微分 博弈 达到 鞍点 时 易 感 传感器 节点 的 
数量 。 

I' (站 表示 无 线 传感器 网 络 恶意 程序 防御 微分 博弈 达到 鞍点 时 被 感染 传感器 节点 的 
数量 。 

) 家 (0) 表 示 无 线 传感器 网 络 恶意 程序 防御 微分 博弈 达到 鞍点 时 无 线 传感器 网 络 系统 将 
传感器 节点 从 状态 工 转换 为 尺 的 最 优 主 观 努力 程度 。 

yir (0) 表 示 无 线 传感器 网 络 恶意 程序 防御 微分 博弈 达到 鞍点 时 无 线 传感器 网 络 系统 将 


传感器 节点 从 状态 工 转换 为 了 的 最 优 主 观 努力 程度 。 

Y (0 表示 无 线 传感器 网 络 恶 意 程序 防御 微分 博弈 达到 鞍点 时 恶意 程序 将 传感器 节 
点 从 状态 S 转换 为 工 的 最 优 主 观 努 力 程度 。 

yi (0 表示 无 线 传感器 网 络 恶 意 程 序 防御 微分 博弈 达到 鞍点 时 恶意 程序 将 传感器 节 
点 从 状态 工 转换 为 了 的 最 优 主观 努力 程度 。 

P(i) 表 示 协 状态 函数 (Co-state Function) 向 量 。 

H(t, p(t) x(t) ,py(1) ,vy(1)) 表 示 蛤 密 尔 顿 (Hamiltonian) 等 式 。 


5.2 相关 工作 


近年 来 ,伴随 着 计算 机 网 络 的 发 展 ,恶意 程序 已 经 成 为 威胁 网 络 安 全 的 主要 因素 之 一 。 
面 对 恶意 代码 数量 的 日 益 庞 大 及 其 威胁 的 日 益 严 重 ,由 于 技术 的 局 限 性 , 仍 有 大 量 恶意 代码 
无 法 被 有 效 监测 使 恶意 代码 的 防范 形势 变 得 日 益 严 峻 (0 中。 要 防御 恶意 程序 ,首先 要 获得 
恶意 程序 的 特征 (Signature) , 从 而 为 获得 未 知 恶意 程序 特征 和 已 知 恶 意 程序 的 变种 奠定 基 
础 。 因 此 ,恶意 程序 检测 技术 一 直 是 研究 者 的 热门 领域 。 

Egele 等 人 中 综述 了 用 于 采集 潜在 恶意 程序 的 动态 分 析 技 术 及 相应 的 辅助 分 析 程 序 。 
Santos 等 人 99 提出 一 种 基于 操作 码 序列 (Opcode Sequence) 的 分 类 器 用 于 检测 未 知 的 恶意 
程序 代码 。 苗 甫 等 人 "9 提出 一 种 基于 流量 统计 指纹 的 恶意 代码 检测 模型 ,通过 提取 网 络 
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流量 中 的 包 层 特征 和 流 层 特征 ,利用 两 类 特征 的 概率 密度 函数 建立 恶意 代码 流量 统计 指纹 ， 
实现 网 络 中 恶意 代码 流量 的 检测 。 孔 德 光 等 人 5 从 操作 码 分 布 序列 ` 调 用 流 图 特征 、 系 统 
调用 序列 图 这 3 个 特征 维度 归纳 和 分 析 恶 意 代码 特征 ,提出 了 一 种 基于 多 维特 征 的 迷惑 恶 
意 代码 检测 算法 。 王 划 等 人 ”采用 可 回溯 的 动态 污点 分 析 方法 ,对 恶意 代码 变种 进行 细 
粒度 地 分 析 ,挖掘 其 行为 特征 ,从 而 得 到 一 种 抗 混 清 的 恶意 代码 变种 检测 方法 。 张 鹏 涛 等 
人 05 从 指令 频率 和 包含 相应 指令 的 文件 频率 两 个 方面 出 发 ,提出 了 一 种 基于 惩罚 因子 的 
阴性 选择 算法 实现 恶意 程序 的 检测 。Dube 等 人 9 结合 决策 树 机 器 学 习 算法 和 静态 启发 
法 (Static Heuristics) 提 出 了 一 种 恶意 程序 标识 (Malware Target Recognition) 系统 。Chen 
等 人 55 为 恶意 程序 的 监督 学 习 提出 了 一 种 新 的 分 类 框架 ,该 框架 利用 支持 向 量 机 和 决策 
树 构 建 学 习 模 型 ,使 用 自 组 织 映射 实现 分 类 。Perdisci 等 人 25 提出 一 种 适用 于 HTTP 恶 
意 程序 聚 类 的 方法 ,通过 轮流 检查 网 络 的 命令 控制 和 网 络 外 围 通信 能 自动 地 得 到 恶意 程序 
的 特征 。Chandramohan 和 Tang5 关 注 智能 手机 的 移动 恶意 程序 的 检测 问题 。 李 鹏 和 王 
汝 传 25 将 自 相似 特性 技术 引入 到 恶意 代码 的 动态 分 析 中 ,通过 跟踪 同类 型 的 恶意 程序 , 提 
取 恶 意 程序 的 关键 特征 信息 ,得 到 时 间 调 用 序列 ,实现 了 同 种 恶意 程序 的 检测 。 他 们 中 还 
利用 基于 未 知 恶 意 代 码 样本 空间 关系 特征 的 自动 检测 技术 ,划分 恶意 代码 样本 空间 关系 区 
域 , 提 取 恶 意 程序 特征 向 量 , 建 立 空间 关系 特征 向 量 索 引 实现 未 知 恶意 代码 的 检测 。 王 蕊 等 
人 中 结 合 指令 层 的 污点 传播 分 析 与 行为 层 的 语义 分 析 , 提 取出 恶意 代码 的 关键 行为 ,利用 
抗 混淆 引擎 识别 语义 ,得 到 恶意 代码 行为 特征 ,从 而 实现 恶意 代码 行为 的 检测 。 其 他 的 检测 
方法 还 有 基于 行为 特征 的 恶意 代码 检测 模型 "9 .基于 最 小 行为 的 恶意 程序 分 析 方法 5 、 
基于 沙 盒 技术 的 恶意 程序 检测 模型 2 等 。 

除 研究 恶意 程序 的 检测 技术 外 ,也 有 很 多 学 者 研究 恶意 程序 的 传播 问题 。Peng 等 
人 中 系统 综述 了 智能 手机 甄 意 程序 的 分 类 和 相应 的 传播 模型 。 王 长 广 等 人 中 研究 蓝牙 
环境 下 恶意 程序 的 传播 问题 ,将 蓝牙 协议 的 作用 及 设备 移动 方式 抽象 为 不 同 的 统计 学 参数 ， 
建立 了 一 种 蓝牙 环境 下 恶意 程序 传播 机 制 的 分 析 模 型 。 李 婵 婵 等 人 5 针对 动态 小 世界 社 
团 网 络 病毒 具有 的 社团 结构 和 小 世界 特性 ,提出 结构 强度 可 调 的 动态 小 世界 网 络 模型 ,来 模 
拟 现实 生活 中 的 本 地 接触 和 移动 接触 现象 ,并 基于 平均 场 理 论 建立 了 该 网 络 上 的 SIR 病毒 
传播 模型 。 左 春 和 宋 玉 鞭 529 在 考虑 连 边 保护 的 情况 下 利用 SIS 模型 建立 了 一 种 自 适应 网 
络 病毒 传播 模型 。 林 昭 文 等 人 5 针对 物 联 网 中 AS 级 网 络 拓扑 结构 ,利用 加 权 复 杂 网 络 提 
出 了 一 种 新 的 蠕虫 传播 模型 。 徐 小 龙 等 人 ”J 研究 P2P 网 络 中 恶意 代码 的 主动 传播 和 被 动 
传播 两 种 情况 ,将 P2P 网 络 节点 分 为 易 感染 .已 暴露 已 感染 和 已 免疫 4 种 状态 ,给 出 了 以 
微分 方程 表示 的 处 于 各 种 状态 的 P2P 网 络 节点 数量 随时 间 变 化 的 演化 公式 。 
Ramachandran 和 Sikdar ?* fi Ff] € 4% Ei J (Compartmental Model) 分 析 采 用 Gnutella 协议 
的 P2P 网 络 恶意 程序 传播 问题 ,得 到 了 控制 恶意 程序 传播 的 系统 参数 和 策略 。Shan 等 
人 5 利用 强制 存 取 控制 (Mandatory Access Control) 技 术 研 究 商业 操作 系统 中 的 恶意 程序 
防御 问题 ,提出 了 一 种 能 检测 .跟踪 且 限 制 恶意 入侵 者 的 强制 存 取 控 制 增强 方法 。Peng 等 
人 50 提出 了 针对 智能 手机 恶意 程序 的 二 维 元 胞 自动 机 传播 模型 。Song 等 人 中 利用 元 胞 
自动 机 理论 针对 自 适应 网 络 恶意 程序 建立 了 传播 模型 。Yu 等 人 5 从 网 络 全 局 考虑 ,将 恶 
意 程序 传播 分 成 两 个 阶段 ,再 利用 传染 病理 论 分 别 建立 不 同 阶段 的 恶意 程序 传播 模型 ,揭示 
了 恶意 程序 在 不 同 阶段 传播 时 分 别 具 有 指数 分 布 和 笑 律 分 布 的 规律 。Feng 等 人 中 在 考虑 
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暂时 免疫 和 传染 率 可 变 的 情况 下 提出 了 一 种 时 延 SIRS 模型 ,得 到 了 决定 恶意 程序 是 否 灭 
绝 的 重生 数 (Reproductive Number)。Khosroshahy 等 人 2 在 扩展 传统 传染 病理 论 基 础 上 
提出 了 一 种 适用 于 Botnet 的 SIC(Susceptible-Infected-Connected) 模 型 ,与 其 他 恶意 程序 传 
播 模型 不 同 的 是 ,该 模型 只 跟踪 已 感染 和 已 连接 状态 ,并 在 考虑 群体 大 小 随机 变化 的 基础 上 
转化 为 连续 时 间 马 尔 可 夫 链 模型 。Adu-Gyamfi 等 人 中 针对 移动 社会 网 络 恶 意 程序 提出 
T SEIRI(Susceptible-Exposed-Infected-Removed-Immune) Bi 9), Wen 等 人 [Cag 提出 了 一 
种 能 维护 时 空 同 步 过 程 的 SII(CSusceptible-Infected-Immune) 模 型 ,该 模型 考虑 了 Internet 
用 户 检查 邮件 和 社会 信息 的 不 一 致 性 ,以 及 节点 与 邻居 节点 之 间 的 空间 依赖 性 。Bose 和 
Shin "在 考虑 网 络 用 户 应 用 程序 交互 ,本 地 网 络 结构 、 用 户 移动 性 、 恶 意 程序 合作 性 等 基础 
上 ,针对 异 质 网 络 提出 了 一 种 基于 智能 体 的 恶意 程序 传播 模型 。Faghani 和 Nguyen"? 在 
考虑 在 线 社 会 网 络 中 的 用 户 行为 .社区 的 高 聚 簇 结构 .社区 大 小 等 因素 基础 上 ,针对 XSS 
(Cross-Site Scripting) 恶意 程序 给 出 了 节点 被 感染 的 概率 模型 。Wang 等 人 [9 针对 车 联 
Ad Hoc 网 络 (Vehicular Ad Hoc Networks) ,给 出 了 一 种 基于 城市 均衡 车 流量 ,能 反映 移动 
特性 .通信 信道 .介质 访问 控制 机 制 的 蠕虫 传播 模型 。Karyotis 和 Papavassiliou ^! fi] Fi] HE 
队 论 建立 了 针对 节点 动态 变化 的 复杂 网 络 中 恶意 程序 传播 的 模型 。Cheng 等 人 "在 考虑 
智能 手机 恶意 程序 具有 的 离 域 感染 (Delocalized Infection) 和 波浪 式 传播 (Ripple-based 
Propagation) 特 性 基础 上 ,给 出 了 一 种 描述 传播 动态 的 微分 方程 模型 。Lu 4$ AP? E T 
基于 随机 过 程 的 Botnet 恶意 程序 传播 模型 ,得 到 了 传播 过 程 中 节点 移动 性 起 决定 性 作用 的 
结论 。Peng 等 人 针对 智能 手机 恶意 程序 ,分 别提 出 了 基于 半 马 尔 可 夫 过 程 和 社会 关系 
F7 .最 具 影响 节点 5 的 传播 模型 。 

当前 , 越 来 越 多 的 研究 者 开始 关注 无 线 传感器 网 络 中 具有 自我 复制 功能 的 恶意 程序 的 
传播 问题 。 付 帅 等 人 55 考虑 传感器 节点 的 休眠 与 唤醒 机 制 , 提 出 一 种 SIR/WS 模型 ,描述 
了 感染 传感器 节点 以 广播 方式 传播 恶意 程序 的 过 程 ,发 现 降低 传染 率 和 提高 免疫 率 都 可 抑 
制 恶意 程序 的 传播 。 王 小 明 等 人 中 依据 移动 无 线 传感器 网 络 的 信息 扩散 机 制 ,设计 节点 
移动 模型 .无线 信道 分 配 算法 、 信 号 干扰 模型 和 恶意 数据 包 传播 模型 ,定义 移动 传感器 网 络 
环境 下 的 元 胞 空间 、 元 胞 邻 域 .元 胞 状态 以 及 状态 转换 规则 ,提出 移动 无 线 传 感 器 网 络 中 恶 
意 数 据 包 传 播 的 随机 元 胞 自动 机 模型 ,研究 了 在 不 确定 环境 下 恶意 数据 包 传播 的 时 空 特征 。 
他 们 还 分 别 利 用 “反应 扩散 方程 "(Reaction-diffusion Equation) 7 、 脉 冲 微 分 方程 (Pulse 
Differential Equation) ^? 建立 了 恶意 程序 传播 模型 。Giannetsos 等 人 ”说 明了 恶意 程序 
如 何在 基于 汉 。… 诺 依 曼 (Von Neumann) 结 构 的 传感器 节点 上 传播 的 过 程 。 通 过 将 恶意 代 
码 分 割 成 多 个 数据 包 , 一 个 攻击 者 可 以 随意 地 将 恶意 程序 注入 传感器 节点 并 完全 控制 这 个 
传感器 节点 。 然 后 注入 的 恶意 程序 就 可 以 继续 将 自己 分 割 成 多 个 数据 包 并 像 自我 复制 的 里 
虫 一 样 以 多 跳 方 式 传播 自己 直至 整个 无 线 传感器 网 络 。 为 了 抑制 这 种 恶意 程序 的 传播 , 研 
究 者 们 提出 了 不 同 的 模型 来 揭示 恶意 程序 的 传播 机 制 。Khayam 和 Radha ^" 利用 信号 处 
理 技术 建立 了 一 种 体现 蠕 虫 时 间 和 空间 传播 动力 学 的 拓扑 感知 蠕 虫 传播 模型 
(Topologically Aware Worm Propagation Model) .该 模型 同时 考虑 了 物理 通道 条 件 .MAC 
层 碰撞 、 网 络 层 路 由 和 传输 层 协议 的 影响 。Yanmaz52 利用 传统 的 SIR 模型 研究 包含 大 量 
移动 节点 已 被 恶意 程序 感染 后 的 静态 无 线 网 络 ,并 根据 网 络 的 物理 拓扑 和 移动 节点 模型 ,给 
出 了 恶意 程序 传播 的 规模 和 阅 值 。De 5k ACOU 提出 一 种 流行 病 模型 分 析 了 Trickle, 
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Firecracke, Deluge, MNP 等 典型 广播 协议 中 的 恶意 程序 传播 率 (Propagation Rate) 等 问题 。 
利用 相同 的 数学 工具 ,他 们 J 还 分 析 了 传感器 节点 欺骗 的 传播 问题 ,并 给 出 了 其 中 的 关键 
因素 ,这 些 因 素 将 影响 恶意 程序 传播 的 大 爆发 , 从 而 避免 可 能 导致 的 整个 网 络 瘫痪 。 
Mishra 和 Jhacs5 提 出 了 一 种 可 能 适用 于 描述 无 线 传感器 网 络 恶 意 程序 传播 的 流行 病 模型 
SEIQRS, 该 模型 考虑 了 易 感 (Susceptible)、 潜伏 (Exposed)、 感染 (Infected)、 隔 离 
(Quarantined) .康复 (Recovered) 等 不 同 状 态 。Wang 和 Lics55 在 考虑 传感器 节点 具有 死亡 
状态 (Dead State， 即 失去 功能 ) 的 基础 上 提出 了 一 种 新 的 流行 病 传播 模型 ISIRS 用 于 描述 
无 线 传感器 网 络 中 的 恶意 程序 传播 问题 。Wang 等 人 中 进一步 提出 另 一 种 新 的 流行 病 传 
播 模型 EiSIRS 以 体现 传感器 节点 具有 休眠 和 工作 交 蔡 调度 的 情况 。 另 外 , Tang’ 通过 加 
入 休眠 状态 改进 了 传统 的 SI 模型 ,在 该 模型 中 引入 了 一 种 系统 反 病 毒 程序 能 在 节点 从 工作 
状态 到 休眠 状态 转换 的 瞬间 能 自动 启动 并 检查 易 感 节点 和 查 杀 恶意 程序 的 机 制 。 

微分 博弈 作为 一 种 研究 多 个 具有 利益 纷争 的 理性 参与 者 之 间 动 态 交 互 的 博弈 类 型 ,在 
不 同 的 无 线 网 络 环境 中 已 有 一 些 应 用 。Cao 等 人 中 为 了 使 无 线 传感器 网 络 实现 有 效 的 监 
管 目标 ,应 用 微分 博弈 得 到 了 最 优 的 追 逃 控制 策略 .信息 需求 的 边界 和 这 些 边 界 的 扩展 属 
性 。Miao 等 人 529] 针对 能 量 限 制 的 无 线 网 络 , 利 用 合作 微分 博弈 在 权衡 网 络 吞 吐 量 
(Network Throughput) 和 能 量 使 用 效率 之 间 利 益 得 失 的 基础 上 给 出 了 一 种 优化 的 控制 策 
略 。 与 Miao 等 人 29 不 同 的 是 ,Lin 等 人 中 将 非 合 作 微分 博弈 应 用 于 认 知 无 线 电 Ad Hoc 
网 络 中 多 路 径路 由 效率 的 提高 上 ,得 到 的 均衡 经 过 证 明 是 一 种 有 效 的 路 由 分 配方 案 。Zhu 
等 人 55 考虑 异 构 无 线 网 络 中 不 同 服务 的 带宽 分 配 问题 ,为 不 同 服务 提供 者 之 间 的 动态 竞 
争 关系 建立 了 一 种 最 大 化 带宽 分 配 的 微分 博弈 (Upperbandwidth-allocation Differential 
Game) 模 型 ,并 给 出 该 模型 的 开 环 纳什 均衡 解 。 另 外 ,Gu525 利用 微分 博弈 探索 基于 无 线 传 
感 器 网 络 的 移动 目标 跟踪 问题 ,通过 计算 相应 博弈 模型 的 鞍点 均衡 (Saddle-point 
Equilibrium) ,为 估计 要 跟踪 目标 的 位 置 提 供 了 最 优 的 筛选 方案 。Xu 和 Zhou? 9! 利用 微分 
博弈 研究 低 轨道 卫星 移动 通信 系统 中 的 信道 资源 分 配 问题 ,给 出 了 基于 纳什 均衡 的 卫星 光 
R (Satellite Beam) 优 化 分 配方 案 。 针 对 异 构 无 线 网 络 多 路 径路 由 中 各 条 路 由 为 追逐 各 自 
利益 相互 竞争 有 限 的 无 线 资 源 ,导致 数据 传输 的 不 可 靠 问题 ,Hu 和 Xie" 利用 非 合作 随机 
微分 博弈 (Noncooperative Stochastic Differential Game) ,以 利益 最 大 化 为 设计 目标 、 有 限 
带宽 资源 为 限制 条 件 、 路 径 可 靠 度 为 关键 因素 ,给 出 了 基于 反馈 纳什 均衡 解 的 优化 多 路 径路 
由 策略 。 

然而 ,对 于 恶意 程序 传播 过 程 中 反映 出 来 的 决策 问题 ,当前 仅 有 少量 研究 利用 博弈 论 方 
法 解决 该 问题 。Theodorakopoulos 等 人 中 结 合 经 典 的 流行 病 模型 SIR 和 完全 信息 静态 博 
弈 用 于 解决 动态 部 署 网 络 的 安全 机 制 问题 。Omic 等 人 "中 采用 与 Theodorakopoulos 等 
人 55 相同 的 思路 ,但 使 用 经 典 的 SIS 流行 病 模型 解决 如 何在 网 络 恶意 程序 传染 时 的 网 络 保 
护 问题 。Bensoussan 等 人 2 在 僵尸 网 络 (Botnet) 环 境 中 .利用 一 种 改进 的 SIS 模型 研究 被 
感染 计算 机 (Bot) 比例 的 动态 演化 问题 .并 通过 微分 博弈 从 经 济 利益 的 角度 分 析 Botnet 何 
时 活动 和 系统 如 何 采取 最 优 防 御 策略 的 问题 ,最 后 在 考虑 防御 策略 的 有 效 性 和 恶意 程序 传 
染 率 等 因素 基础 上 给 出 了 两 种 可 能 的 闭环 纳什 均衡 解 。 另 外 ,Khouzani 4 A 3$ — ph Z 


问题 , 当 相应 的 博弈 模型 达到 鞍点 后 ,得 到 一 种 鲁 棒 的 防御 策略 ,这 种 策略 能 根据 被 感染 主 
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机 比例 的 变化 而 动态 地 进行 改变 。 

与 上 述 相关 工作 相 比 ,本 章 集中 关注 无 线 传感器 网 络 中 的 恶意 程序 传播 问题 , 而 
Bensoussan 4 A"? 和 Khouzani 等 人 5 分别 关 注 僵 尸 网 络 和 通常 的 无 线 网 络 环境 。 本 章 
与 Wang 等 人 中 研究 工作 类 似 的 是 都 研究 无 线 传感器 网 络 环境 ,但 本 章 考虑 了 无 线 传感器 
网 络 系统 与 恶意 程序 的 主观 努力 程度 (Effort Intensity) ,因此 得 到 了 不 同 的 恶意 程序 传播 
模型 ,尤其 在 表达 传感器 节点 状态 动态 演化 的 微分 等 式 方面 。 本 章 将 使 用 微分 博弈 建立 恶 
意 程序 防御 微分 博弈 模型 ,该 模型 的 研究 目标 是 在 恶意 程序 动态 改变 其 策略 时 ,为 无 线 传 感 
器 网 络 系统 得 到 动态 的 最 优 防御 策略 。 这 种 融合 流行 病理 论 和 博弈 论 的 思想 类 似 于 
Bensoussan ^& A? ftl Khouzani 等 人 "外 的 工作 。 然 而 ,本 章 为 满足 无 线 传感器 网 络 的 特 
点 ,扩展 的 流行 病 模型 考虑 每 个 传感器 节点 具有 S( 易 感 )、S ( 易 感 且 休 眼 ) TBE RR EDT 


(被 感染 且 休 眠 ) .R( 康 复 ) R ORA HIIR) .D( 死 亡 ) 等 7 种 状态 ,而 Bensoussan 4& AP 
仅 考虑 了 S 和 了 两 种 状态 ,Khouzani 等 人 中 考虑 了 SIR AD 等 4 种 状态 ,因此 本 章 得 
到 的 最 优 控制 策略 与 他 们 己 ”… ?5 得 到 的 最 优 控制 策略 完全 不 同 。 


5.3 ”基于 扩展 流行 病理 论 的 无 线 传感器 网 络 恶 意 程序 传播 模型 


本 章 考 虑 的 无 线 传感器 网 络 环境 包含 N 个 静态 已 标识 的 传感器 节点 ,这 些 传感器 节点 
以 节点 密度 c 被 统一 地 撒播 在 一 块 二 维 的 区 域 上 。 每 个 传感器 节点 都 已 配备 具有 最 大 信和 号 
发 射 距离 为 的 双向 天 线 。 从 源 传感器 节点 捕获 的 数据 能 被 发 送 到 信号 传输 范围 内 的 相 邻 
传感器 节点 ,这 些 邻 居 传 感 器 节点 再 以 中 继 方 式 继续 将 数据 传递 到 下 一 个 相 邻 的 传感器 节 
点 。 另 外 ,所 有 传感器 节点 的 供电 都 采用 有 限 电能 的 电池 。 

以 流行 病理 论 的 观点 来 看 ,无 线 传 感 器 网 络 中 的 传感器 节点 因 其 自身 的 特性 ,可 以 分 成 
以 下 的 7 种 状态 : 

(D SCSusceptible) 。 处 于 状态 S 的 传感器 节点 正在 正常 工作 且 易 于 被 恶意 程序 感染 ， 
但 当前 还 未 被 恶意 程序 感染 。 


Q S (Susceptible and Sleeping) 。 处 于 状态 S 的 传感器 节点 虽然 存在 被 恶意 程序 利用 
的 漏洞 ,但 因 正 在 休眠 而 无 通信 功能 ,所 以 . 它 不 会 被 恶意 程序 感染 。 

© I(Infected)。 处 于 状态 了 的 传感器 节点 已 被 恶意 程序 感染 且 能 通过 传输 数据 或 控 
制 信息 的 方式 将 恶意 程序 传染 到 处 于 状态 S 的 相 邻 传感器 节点 上 。 


® I (Infected and Sleeping)。 处 于 状态 I 的 传感器 节点 虽然 已 被 恶意 程序 感染 ,但 因 
正在 休眠 而 无 通信 功能 ,所 以 它 不 能 将 恶意 程序 传染 到 其 他 相 邻 的 传感器 节点 上 。 

© R(ecovered) 。 处 于 状态 R 的 传感器 节点 可 能 是 因为 安装 了 安全 补丁 后 从 状态 S 
中 转换 过 来 ,也 可 能 经 过 治疗 后 从 状态 I 中 转换 过 来 ,这 种 传感器 节点 对 恶意 程序 具有 人 免疫 
力 , 也 就 是 说 不 会 被 恶意 程序 感染 。 


© R (Recovered and Sleeping) 。 处 于 状态 尺 的 传感器 节点 对 恶意 程序 有 免疫 力 且 正在 
休眠 。 
@ DCDead) 。 处 于 状态 D 的 传感器 节点 已 失去 所 有 的 功能 ,它们 可 能 因为 能 量 消耗 列 
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尽 而 从 状态 ST 和 R 转换 过 来 ,也 可 能 因为 恶意 程序 故意 破坏 而 从 状态 工 转换 过 来 。 当 
然 , 这 样 的 传感器 节点 即使 已 被 恶意 程序 感染 ,也 不 会 传播 恶意 程序 。 
图 5-1 给 出 了 传感器 节点 的 所 有 7 种 状态 之 间 的 转换 关系 。 


图 5-1 传感器 节点 状态 间 的 动态 演化 
在 图 5-1 中 ,假设 
Vi,SGD) 十 SC) 十 IO +10) --RG H-RG DG) =N (5-1) 
RAR HP e ORRERA 上 处 于 状态 .的 传感器 节点 数量 。 另 外 ,还 假设 在 恶意 程 
序 大 规模 传染 爆发 前 已 有 部 分 传感器 节点 已 被 恶意 程序 感染 , 即 


0<I(O0)=I <N (5-2) 
式 中 ,了 为 初始 已 感染 恶意 程序 节点 数 。 为 简化 起 见 , 令 
$(0 = I(0 = RC) = R() = D0) = 0 (5-3) 
从 而 
SO —N—I, (5-4) 


接 下 来 本 章 将 以 流行 病理 论 的 观点 分 析 各 种 状态 间 的 动态 变化 关系 。 

对 处 于 状态 S 的 传感器 节点 而 言 , 当 它 与 已 被 恶意 程序 感染 的 传感器 节点 通信 时 , 它 
被 恶意 程序 感染 的 概率 为 ysr 。 由 于 所 有 的 传感器 节点 以 节点 密度 o 均匀 地 被 撒播 在 传 感 
区 域 中 ,因此 一 个 被 恶意 程序 感染 的 传感器 节点 能 与 它 通信 的 相 邻 传感器 节点 数 为 onr? o 
然而 ,这 些 所 有 相 邻 的 传感器 节点 不 是 都 会 被 恶意 程序 感染 ,只 有 那些 处 于 状态 S 的 传 感 
器 节点 才 有 可 能 被 感染 。 由 前 文 所 述 传感器 节点 在 传 感 区 域内 统一 分 布 的 假设 ,可 得 在 时 
A) t 相 邻 的 传感器 节点 是 易 感 传感器 节点 的 概率 为 SCCD)/N。 因 此 ,所 有 的 已 感染 传感器 节 
点 和 易 感 传感器 节点 形成 的 节点 对 数目 为 ur”*S(DTGC)VN。 这 样 ,就 可 得 到 从 状态 S 转换 
到 状态 工 的 传感器 节点 数 为 ysorrSCDT(DVN。 另 外 ,为 了 节省 传感器 节点 的 能 量 , 传 感 


器 节点 以 概率 ys 进入 休眠 状态 。 因 此 ,在 时 刻 : 从 状态 S 转换 到 状态 S 的 传感器 节点 数 为 
ys S(t1)。 类 似 地 ,可 以 得 到 从 状态 S 转换 到 状态 R AD 的 传感器 节点 数 分 别 为 YseS (7) 和 
YsoS (1) ,其 中 ys 表示 一 个 处 于 状态 S 的 传感器 节点 被 成 功 安装 安全 补丁 以 便 对 恶意 程序 
具有 免疫 力 的 概率 ,ysp 表 示 一 个 状态 S 的 传感器 节点 因 能 量 消耗 殖 尽 而 失去 所 有 功能 的 
概率 。 

对 处 于 状态 了 的 传感器 节点 而 言 , 无 线 传感器 网 络 系统 会 以 概率 yi 控制 其 进入 休 眼 状 
态 以 避免 其 将 恶意 程序 传染 给 其 他 传感器 节点 。 由 于 安全 补丁 能 清除 处 于 状态 工 的 传感器 
节点 上 的 恶意 程序 ,因此 ,这 种 被 感染 的 传感器 节点 具有 转换 为 康复 传感器 节点 的 概率 , 记 


为 Yk。 因为 从 状态 S 和 了 转换 到 状态 R 都 与 安装 安全 补丁 有 关 , 为 简便 起 见 ,假设 yn = 
Ys 。 另 外 ,这 种 被 感染 传感器 节点 可 能 会 因为 能 量 消耗 列 尽 而 失去 所 有 功能 ,也 有 可 能 被 
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恶意 程序 故意 杀 死 ,因此 从 状态 I 转换 到 状态 D 具有 一 定 的 概率 , 记 为 yp 。 所 以 ,可 得 到 


在 时 刻 : 被 感染 传感器 节点 转换 为 状态 六 .R 和 DD 的 数量 分 别 为 y 亲 ICD) yeI OM yoI A), 
对 处 于 状态 R 的 传感器 节点 而 言 ,由 于 正常 的 系统 调度 进入 休眠 状态 ,所 以 转换 到 状 


态 R 具 有 一 定 的 概率 , 记 为 ya; 又 由 于 其 能 量 会 耗 尽 而 失去 所 有 功能 ,所 以 转换 到 状态 D 
具有 一 定 的 概率 , 记 为 yap ,为 简化 起 见 , 假 设 Yeo = yso 。 所 以 ,可 得 到 在 时 刻 t 处 于 状态 尺 


的 传感器 节点 转换 到 状态 R AD fü eR ADR y ss RO BI yR CO « 


对 处 于 状态 S 工 和 尽 中 的 传感器 节点 而 言 , 它 们 会 在 系统 的 正常 控制 下 被 唤醒 ,这 些 转 
换 具 有 一 定 的 概率 ,分 别 记 为 yss .Yi 和 YRRw。 为 简化 起 见 ,假设 yss = yn — ys, iX TE. n] fd 


到 在 时 刻 + 处 于 状态 S .了 和 R 中 的 传感器 节点 转换 到 状态 ST ALR 的 数量 分 别 为 yssS CO. 


yal CO RI YRRU). 

实际 上 ,在 上 面 引 入 的 概率 参数 中 ,ys Yi FA yir 6 6X fe s I i R Be T l Mi ys 和 
zz 由 恶意 程序 控制 ,这些 参 数 在 整个 无 线 传 感 器 网 络 部 署 完毕 后 ,属于 一 些 静 态 的 数值 , 因 
此 不 能 反映 出 无 线 传 感 器 网 络 系统 和 恶意 程序 各 自 的 主观 努力 程度 ,为 此 ,本 章 为 无 线 传 感 
器 网 络 系统 引入 在 时 刻 上 相应 的 主观 努力 度 参 数 YR CO Y CO Al Y CO ,为 恶意 程序 引入 
在 时 刻 上 相应 的 主观 努力 度 参 数 y 当 (和 IBC). PEP ys CO yk GO A viz CO t ERIR 
器 网 络 系统 根据 恶意 程序 传播 的 状况 动态 控制 ,而 ys CO A ydo CO HH E CREAR E A (6 
感 器 网 络 系统 采取 的 策略 进行 相应 的 动态 控制 。 由 于 yR OA 次 (0) 都 与 安全 补丁 的 安装 
有 关 ,为 简化 起 见 ,假设 y GO = Yi () 。 在 考虑 这 些 引入 的 主观 努力 度 参 数 后 ,就 可 以 分 别 
重 写 在 时 刻 上 从 状态 S 转换 到 状态 TABS y3 GO Ysoexr SCOIGO /Ns 从 状态 S 转换 到 
RER 的 数量 为 y 吕 (DYsS(D) ;从 状态 工 转换 到 状态 尺 AYR vik CO ym A); MIRA I 


转换 到 状态 的 数量 为 FOYI: 从 状态 I 转换 到 DD BHA YB OYI). BRT 
些 主观 努力 度 参 数 外 ,其 他 的 参数 由 于 不 是 防御 恶意 程序 传播 的 关键 因素 且 只 与 无 线 传 感 
器 网 络 的 静态 部 署 有 关 , 因 此 可 以 将 它们 考虑 成 常数 。 

经 过 上 述 分 析 , 可 得 到 无 线 传感器 网 络 传感器 节点 各 状态 动态 变化 的 微分 等 式 。 对 


Vt. SCO.SCO IC) I CO RO) R(t) DG) > 0 (5-8) 
且 
SG) +S) 十 TCD) 十 TCD 十 RG) +R) 十 DC) = N (5-6) 
有 
dS(1) _ M d = PA 
ES —— YM (t) Yaenr! SCO I(t) / N — yss S(t) + Yas S CO — Yi (O YRS Q) — YS (1) 
S(0) = N—I, 
(5-7) 


dt 


dS = ys S) — ya SCO 
(5-8) 


S(O) =0 
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5.4 基于 微分 博弈 的 最 优 控制 策略 


5.4.1 无 线 传感器 网 络 恶意 程序 防御 微分 博弈 模型 


= = yl Oyar SCO CO /N — vir Oya ICD + ya T O — y Yel) — YB yw! A) 
T(0) = Io 

(5-9) 
zi = yi ya) — yn Ta) 

(5-10) 
T(0) =0 
RO — Yl CY ya S CO + Yin CO yi CO — VERO + Yaw RO — ym RO (5-11) 
RO) =0 
Ue = y RC) — yg R (1) 

: (5-12) 

RO) =0 
spon = yb (D Ywl C) + YeR GO + YoSCO (5-13) 
D() —0 


定义 5-1 给 定 一 固定 逗留 期 工 ,无 线 传感器 网 络 * 恶 意 程序 防御 微分 博弈 ?是 零 和 的 且 


由 一 个 四 元 组 G — CV C 5 JUR EP: 
* 二 { 无 线 传 感 器 网 络 系统 ,恶意 程序 } 是 博弈 的 参与 者 集合 。 
。 C-uxy kn. 


U= (p(t) | nC = Ori CO « Yir COD + Oy CO M. 0y COS 1) BB HFA fc RR 

器 网 络 系统 在 时 刻 : 可 用 的 控制 策略 集合 。 

V (u(t) |\WKO= G8). Yl (D). Oc yx COT. Oc yb (1) 壹 1) 是 参与 者 恶意 程序 

在 时 刻 上 可 用 的 控制 策略 集合 。 

F= {fC X) ,p(t) ,v0)) |fs«fs Si Sis frs fifo) SE SOx) op) vQ)) FE 

一 个 状态 函数 且 xG0 —[SGO) SQ) 1) TO RO RG) DG)] 是 一 个 七 维 的 状态 
dSCG) 


向 量 。 所 有 的 状态 函数 分 别 由 式 (5-7) 至 式 (5-13) 确 定 , 即 fsc ug E 
dS) , dio , dI(D , dR(D) , dR(D , dD(D 
di fi dt Si dt sfr dt SR dt fp dt ^ 
T 
e GG vt) = | EXD p(t) v» dt HaT) (5-14) 
i 


这 是 一 个 反映 无 线 传感器 网 络 QoS 的 成 本 函数 ,其 中 g [04 T DC X ux VR 代表 在 


ThE Za] ¢ 的 瞬时 成 本 (Instantaneous Cost). ,而 q: x (2 — 表示 逗留 期 结束 时 的 终 期 成 本 
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(Terminal Cost) 。 

在 定义 5-1 中 ,考虑 整个 微分 博弈 中 的 参与 者 由 无 线 传感器 网 络 系统 和 恶意 程序 组 成 。 
其 中 “无 线 传感器 网 络 系统 "实质 是 管理 传感器 节点 和 控制 它们 行为 的 系统 软件 。 在 一 个 无 
线 传感器 网 络 中 可 能 存在 多 种 类 型 的 恶意 程序 ,这 些 恶 意 程序 会 窃听 由 传感器 节点 感知 的 
秘密 的 数据 信息 ,甚至 破坏 整个 无 线 传 感 器 网 络 的 正常 通信 ,直至 使 整个 网 络 瘫 痪 。 由 于 它 
们 具有 共同 点 ,用 参与 者 恶意 程序 可 以 代表 所 有 的 恶意 程序 。 定 义 无 线 传感器 网 络 恶 意 程 
序 防御 微分 博弈 的 目的 就 是 要 从 博弈 论 的 角度 在 参与 者 恶意 程序 动态 改变 传播 策略 时 为 参 
与 者 无 线 传感器 网 络 系 统 提供 最 优 的 控制 策略 。 

本 章 分 别 选 择 (y 家 (1) «yi GO BIOS CO ,7 六 (7)) 作 为 参与 者 无 线 传感器 网 络 系统 和 恶 
意 程 序 的 控制 (Control) 参 数 , 这 种 选择 是 由 无 线 传感器 网 络 恶 意 程序 传播 的 影响 因素 来 确 
定 的 。 参 数 家 (41) 反映 了 无 线 传感器 网 络 系统 分 发 安全 补丁 的 主观 努力 程度 ,其 值 越 大 , 传 
感 器 节点 通过 安装 安全 补丁 从 状态 工 转换 为 状态 尺 的 数量 越 大 ,这 样 使 得 能 对 恶意 程序 免 
疫 的 传感器 节点 越 多 ,进而 增强 整个 无 线 传感器 网 络 通信 的 稳定 性 。 同 时 , 较 高 的 ys CO EE 
将 使 更 多 的 被 感染 传感器 节点 进入 休眠 状态 ,从 而 使 这 些 传 感 器 节点 失去 传播 恶意 程序 的 
能 力 。 另 外 ,参数 并 (代表 了 恶意 程序 将 传感器 节点 从 状态 S 转换 为 状态 了 的 主观 努力 
程度 ,其 值 越 高 ,传播 恶意 程序 的 机 会 越 多 。 亚 意 程 序 通过 执行 特殊 的 代码 可 以 使 被 感染 传 
感 器 节点 丧失 所 有 功能 ,这 主要 通过 参数 ;总 (1) 来 反映 其 主观 努力 程度 。 这 两 个 因素 都 将 
干扰 传感器 节点 的 正常 通信 ,从 而 降低 无 线 传感器 网 络 的 QoS。 

接 下 来 分 析 与 参与 者 无 线 传感器 网 络 系统 和 恶意 程序 相关 的 成 本 函数 。 在 被 恶意 程序 
感染 的 传感器 节点 上 ,恶意 程序 可 以 干扰 传感器 节点 的 正常 工作 甚至 毁坏 传感器 节点 。 同 
时 ,恶意 程序 能 收集 传感器 节点 感知 的 数据 从 而 引起 隐私 信息 泄露 ,也 能 对 传感器 系统 资源 
进行 非 授权 的 访问 。 因 此 ,这 些 感染 恶意 程序 的 传感器 节点 在 时 刻 上 会 引起 一 个 瞬时 成 本 
cl) ,其 中 cr 为 系数 且 c1 宇 9。 这 里 要 说 明 的 是 ,瞬时 成 本 采用 线性 表达 式 进行 描述 是 为 
了 方便 后 期 的 计算 。 虽 然 使 用 非 线性 表达 式 进行 描述 可 能 会 更 精确 ,但 任何 非 线 性 表达 式 
都 可 以 近似 地 使 用 线性 表达 式 表示 出 来 ,因此 这 种 表达 瞬时 成 本 的 方式 是 合理 的 。 对 那些 
被 恶意 的 程序 故意 杀 死 的 传感器 节点 ,它们 将 失去 所 有 功能 且 中 断 所 有 通过 它们 的 路 由 ,这 
种 恶意 程序 的 行为 将 在 时 刻 1 对 整个 无 线 传感器 网 络 产 生 瞬 时 成 本 cpD (7) ,其 中 cp 为 一 个 
系数 且 cp 宇 90。 更 进一步 ,这 些 被 恶意 程序 杀 死 的 传感器 节点 还 会 产生 一 个 终 期 成 本 CBD). 
其 中 ch 为 一 个 系数 且 c5 宇 0, 这 主要 因为 那些 被 杀 死 的 传感器 节点 需要 购买 新 的 传感器 节 
点 从 而 产生 成 本 。 对 那些 经 过 安装 安全 补丁 的 康复 传感器 节点 ,它们 已 具有 对 恶意 程序 的 
免疫 力 ,这 种 状况 将 有 益 于 整个 无 线 传感器 网 络 , 因 此 需要 减 去 在 时 刻 1 产生 的 瞬时 成 本 
Cig YR C Yi ,其 中 cig 为 一 个 系数 且 cm 宇 0。 这 里 仅 选 择 y 吉 (7) 作 为 瞬时 成 本 的 一 个 变量 , 实 
际 上 已 包括 了 参数 Se (0 的 影响 ,因为 这 两 个 参数 y(1) 和 7y 训 (7) 都 与 安全 补丁 的 安装 有 关 
且 已 假设 7 名 (==7 计 (2)。 然 而 ,安装 安全 补丁 的 过 程 将 扫描 所 有 的 传感器 节点 并 传输 相应 
的 安全 补丁 ,因此 会 在 时 刻 上 产生 一 个 瞬时 成 本 cnR OD ,其 中 cx 为 一 个 系数 且 cr 宇 9。 对 那 
些 已 感染 恶意 程序 并 被 无 线 传感器 网 络 系统 控制 进入 休眠 状态 的 传感器 节点 ,它们 失去 原 
有 传播 恶意 程序 的 能 力 , 因 此 整个 无 线 传感器 网 络 会 从 这 些 转换 中 获得 收益 ,也 就 是 说 ,要 
减 去 在 时 刻 上 产生 的 瞬时 成 本 e Yn CO Yn ,其 中 ci 是 一 个 系数 且 cr 三 0。 过 多 的 传感器 节 


点 进入 休眠 状态 将 会 使 传感器 网 络 的 通信 受阻 ,因此 将 在 时 刻 : 产生 相应 的 瞬时 成 本 cz S (2) 
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和 cw R(t) ,其 中 cg 0 cw 0。 而 隔离 被 感染 的 传感器 节点 ( 即 控制 被 感染 传感器 节点 进入 


休眠 状态 ) 失 去 了 传播 恶意 程序 的 能 力 , 因 此 需要 减 去 在 时 刻 产生 的 瞬时 成 本 crT(7) ,其 
中 cr 是 一 个 系数 且 cf 宇 0。 根 据 上 述 分 析 , 可 重 写 式 (5-14) 为 


T ~ ~ 
J GG .v@)) =f Cer] (t) + coDG) + erR GO + cs S(t) — ei I(t) 


十 cg RW) — ey ym — ci yi GO yu dt + cbD(T) (5-15) 
得 到 无 线 传感器 网 络 QoS 的 成 本 函数 后 ,无 线 传感器 网 络 系统 面临 的 问题 是 如 何 选择 它 的 
最 优 控制 策略 y* (1) 来 最 小 化 式 (5-15) ,而 恶意 程序 是 如 何 选择 它 的 最 优 控 制 策略 v* (7) 来 
最 大 化 式 (5-15)。 解 决 这 些 问题 可 从 寻找 无 线 传感器 网 络 恶意 程序 防御 微分 博弈 的 鞍点 
AF. 
定理 5-1 无 线 传 感 器 网 络 恶意 程序 防御 微分 博弈 二 存在 鞍点 。 
WEBB 根据 定义 5-1, 可 得 到 : 


D 状态 函数 SAXO nO) vO) ERAS E SCO SO) EGO TO) RCOR GO 和 
D(D 及 控制 空间 y3 CO Y CO Yi (OO yu (OO Fl ib) KERHA R. 

(2) 瞬时 成 本 函数 Gr x GO «n GOD GOD ) AAR IY RAS PRÉC q Ge CT TE E B AR RU il 
空间 上 是 连续 的 。 

(3) 状态 函数 Gi x GO ,pvCDO) 和 瞬时 成 本 函数 Gr x GO n GOD ,wv(?)) 是 以 控制 参数 

(4) 参与 者 无 线 传感器 网 络 系统 的 控制 策略 集合 与 参与 者 恶意 程序 控制 策略 集合 形成 
的 笛 卡 儿 积 集合 (是 是 的。 

上 述 的 4 个 条 件 满足 文献 [249] 中 定理 2. 6 需要 满足 的 条 件 ,因此 定理 5-1 成 立 。 
证 毕 。 

定理 5-1 意味 着 无 线 传感器 网 络 恶 意 程序 防御 微分 博弈 存在 一 对 鞍点 控制 策略 
Qi D v^ (1)) 满 足 

TQ CO (QD) ST Dy GOD <I Gu) v^ GO) (5-16) 

这 就 是 说 , 当 参 与 者 无 线 传感器 网 络 系统 选择 鞍点 策略 ít (2) 时 ,不 管 参与 者 恶意 程序 选择 
何 种 控制 策略 ,对 无 线 传感器 网 络 系统 而 言 ,至 多 产生 成 本 J (Dv (1)); 而 当 参 与 者 
恶意 程序 选择 鞍点 策略 v (2) 时 ,不 管 参与 者 无 线 传感器 网 络 系统 选择 何 种 控制 策略 ,对 恶 
意 程序 而 言 至 少 产 生 J(j* CO , (1))。 定 理 5-1 的 结论 满足 文献 [36] 中 定理 2.7 的 条 件 ， 
因此 无 线 传 感 器 网 络 恶意 程序 防御 微分 博弈 二 存在 值 V 使 得 


V =V =V+= J(p* (1),* 0)) (5-17) 
其 中 ， 
V = max minJ (y(t) .y (2) (5-18) 
XD aO 
V*— min max] (y(t) «y (2) (5-19) 
aG XD 


因此 ,这 种 最 小 化 最 大 可 产生 成 本 的 鞍点 控制 策略 w” (7) 是 参与 者 无 线 传感器 网 络 系统 的 
最 优 控 制 策略 ,而 最 大 化 最 小 可 产生 成 本 的 鞍点 控制 "” (1) 是 参与 者 恶意 程序 的 最 优 控制 
策略 。 


67 


68 


| 博 蛮 论 与 无 线 传感器 网 络 安全 


5.4.2 无 线 传感器 网 络 系统 和 恶意 程序 的 最 优 控制 


设 x* (1)、S* (OO I (Oo 分 别 为 无 线 传感器 网 络 恶意 程序 防御 微分 博弈 达到 雯 点 控制 策 
WE Cpe” (7) oy" (0), 即 无 线 传感器 网 络 系统 和 恶意 程序 都 分 别 达到 最 优 控制 Yk CO yir OO. 
YS" (0 和 yi" (0 时 最 优 的 状态 轨迹 、 易 感 传 感 器 节点 的 数量 和 被 感染 传感器 节点 的 数量 。 
由 定理 5-1, 无 线 传感器 网 络 恶 意 程序 防御 微分 博弈 存在 鞍点 ,因此 存在 一 个 协 状态 函数 
向 量 

p(t) = [ps pst) Pr) PTA) PRA) pg (D pot) ]" (5-20) 
使 得 以 下 的 必要 条 件 成 立 , 即 
Vf € Ufssfs «fifi fr fR fo) 
d = flex Dap! Gv! GO. x (0) = x dnd 
VuO € UND E v Ye E [0.T] 
A(t, p(t) sx” G9) op (1) GOD x AG, pt) ,x Go). Gy GD (5-22) 
< At. pt) ,x Go ,p(t) Ww G) 


dp.) _ 


x -ZH Qs pO x Oop) Ow" O) 


(5-23) 


p.(T) = J q(x" (T)) 
其 中 ,哈密 尔 顿 等 式 

A(t. p(t) X(t) p(t) v0) 一 SC x(t) p(t) ,v(t)) 

+ 29 pilt) f x) QD v(t) 

i€ (S. S I. I1 R.R D} 
=el (1) + coDG) + cR G) +e S(t) 一 cr TOA) 4% RO) 

+ bsCO yS SQ) + ya SG) — YS CQ) 
+ ps CO rs SC) — ya S COD + pr Yn T(t) 
— pi DO yn DOO + pg D (— ysg RW) + Yee RO) — ygoR (0) 


+ pg CO CYsg RC) — Yee RO) + pp YeR (1) + YS CO) 
+ Vir (Ym Gg GO (SQ) + 00) — eg — ps) SQ) — pr @) IA) 
+ it Orn C ei — piGOIGO + pr OIW) 
+ YS Go Ysexr SC) 1(t)/ NC pi(t) — ps(t)) 
+ yib YDI A) C polt) — piCO) 
De®) + Yi CO qu CO) +7 GO qa COO +78 DO qa CO + Y CO quo GO (5-24) 
需要 注意 的 是 , 式 (5-24) 中 的 ys CO 和 Ya OA SI Y (7) 和 yim 替换 。 根 据 式 (5-15)、 
式 (5-23) 和 式 (5-24) ,可 得 
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dps) 9 x * " 
dB asp HO pO x G^ sy? Gv (7)) 
= pst) YT GO) yaonr I QU /N-- yi Gym 十 yss 十 yso) — ps DYS 
— pry Dysonr I G)/N — pr) yik Gym — po Ys 
ps(T) — 0 
(5-25) 
WSO —— — Ha pQ) OD Ov O) 
aS) 
(5-26) 
=— ps()yss + ps G)yss — c3 
ps(T) — 0 
dpi | 29 * " . 
qm OH POO x (Dp Gov GO 
—— ci ps (DYS (soar? S* CO /N 
— pos Go Yaonr^ S* GN + yi Oxi + Yg Oye 人 2 
+ yi Ym) — pi GO yir Goya — pr YR Gym — poo yi OY 
p(T) =0 
Spr LH, px" Wop vO) 
* ITW 
(5-28) 
Pi Yii + pi yin + cr 
pi(T) =0 
dpr(t) | 29 . . . 
dit agp BG PO x OM. CO) y QD ] 
= pr(t) (YrR + Yro) — pg (D YRR — polt) Yro 一 CR duds 
pr(T) — 0 
ipe —— 2 HG p(t) CO «n! OO) y! OO 
s IRA) 
(5-30) 
bn CO Yer + PR CL) YgR — CR 
PRT) — 0 
deo) |. 9 . . . 
Tue zom HC PO +x G sp” (1) v D 
. (5-31) 
== 
bo(T) — cb 


定理 5-2. ”对 无 线 传感器 网 络 恶意 程序 防御 微分 博弈 二 ,无 线 传感器 网 络 系统 和 恶意 
程序 的 最 优 控制 分 别 为 
fle me <0 


ym (0 = (5-32) 
lo. 其 他 
fle HW <0 

Xo = (5-33) 
lo. 其 他 
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1， 若 y(t) >0 

Xv GO) -1 (5-34) 
0. 其 他 
(i. 若 nw (t) >0 

yb (2) -1 (5-35) 
0. 其 他 


证 明 由 式 (5-24) ,哈密 尔 顿 等 式 
A(t. p(t) xt) p(t) G0) =e) + Yin 1) ym (1) + yi) pi) 
+ YN) gs (0) + vib GO gn A) (5-36) 
是 所 有 控制 参数 ie CO yi CO CL) AL yo CO ARE RETA HK, HERREN (5-22), TERE AE 
器 网 络 恶意 程序 防御 微分 博弈 的 鞍点 策略 (5 CO «v^. (2) ) 必 须 满足 


(CD QD) € arg min max H(t, p(t) x(t) «uG) y Q)) (5-37) 
"oum 
和 
Cu” (1) v” QD) € arg max min H(t. p(t) x(t) «uG) v(t) (5-38) 
Md oa 


因此 ,定理 5-2 结论 成 立 。 证 毕 。 
定理 5-2 说 明 在 应 用 无 线 传感器 网 络 恶意 程序 防御 微分 博弈 时 ,不 需要 直接 去 计算 该 
模型 的 鞍点 控制 策略 ,就 可 为 无 线 传感器 网 络 系统 和 恶意 程序 得 到 最 优 的 控制 。 实 际 上 鞍 
点 控制 策略 的 计算 过 程 对 资源 有 限 的 传感器 节点 而 言 计 算 太 复杂 而 不 适合 传感器 节点 环 
境 , 而 本 章 得 到 的 结果 实质 属于 Bang-Bang 控制 ,这 种 控制 模式 不 但 能 在 传感器 节点 环境 
中 方便 地 实现 ,而 且 , 一 旦 状态 函数 和 协 状 态 函 数 已 知 的 话 pas CO prr GO sys (AL qo GO E 
会 被 唯一 确定 ,从 而 可 以 方便 地 得 到 无 线 传感器 网 络 系统 和 恶意 程序 的 最 优 控制 。 下 面 给 
出 相应 的 算法 。 
算法 5-1 计算 无 线 传感器 网 络 系统 和 恶意 程序 的 最 优 控制 策略 。 
输入 : C 
输出 : (UY) 
. 初 使 化 所 有 系数 。 
2. Wt y[16]—1(0.0).(0.0).(00.00 (0.1) «CD (1:2). 
3. 设置 16]—(C600*, 00s «0^ <09,( 504 00s 05 00), KOK 
05,720,705). 
WERE COYRR (0) «3; 000 CM (0) 306 (000 — COLD (1.1). 
FOR t=1 TO T 
Hi Yi CO Yin OO Yu OO Yi CO TV AGRG-7) BH (5-13) ASK (5-25) HTK (5-31) , 
采用 标准 的 数值 计算 法 计算 式 (5-7) 至 式 (5-13) 和 式 (5-25) 至 式 (5-31) 得 到 所 
有 当前 状态 和 协 状态 值 。 
8. 计算 Gpm CO) «mi (Os pst) ,yp (1) 6 
9. FOR 4—1 TO 16 


vane 


10; IF (qr CO «quii CO + ps1 (D «gm (2) = =7Lk] THEN 
11. RE (2) ,v* GOD-ylk]. 
12. Break; 


13. ENDIF 
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14. ENDFOR 

15.  ibHGYRO yi (1). OAO yi (2) ) = LR]. 

16. ENDFOR 

17. RETURN (U,V )- (G^ (1) ov" (1)), (CA (2) wv" (2) 8 CD s (T))} 


5.5 实验 


使 用 MATLAB R2010a 实验 环境 ,本 章 首先 说 明 无 线 传感器 网 络 恶 意 程序 传播 过 程 中 
各 种 状态 的 演化 曲线 ,揭示 包括 由 无 线 传感器 网 络 系统 控制 的 yin (ORI ys CO VL IB EE 
程序 控制 的 YS Co) 各 (4) 等 因素 如 何 影响 被 感染 传感器 节点 的 数量 。 接 下 来 分 别 说 明 无 
线 传感器 网 络 系统 和 恶意 程序 在 它们 交互 过 程 中 的 最 优 控制 策略 。 然 后 ,将 无 线 传感器 网 
络 系统 和 恶意 程序 都 采用 静态 控制 策略 时 产生 的 成 本 与 它们 都 采用 优化 控制 策略 时 产生 的 
成 本 进行 比较 。 最 后 给 出 最 优 控制 策略 对 恶意 程序 传播 影响 的 评价 。 为 了 完成 这 些 实 验 ， 
本 章 初始 化 必需 的 参数 值 如 下 : 0—0. 1. r— 10m. N=1000. ys =0. 2, ys —0. 1. ym 
0. 1. yso —0. 005, yt —0.2. Yr =ym+ Yo=0.05, ygg —0. 2, Yro — Ys» Y85—0. 25. yii 
Yss, YRR— Yss 和 1(0)=10。 


5.5.1 静态 控制 策略 下 各 状态 传感器 节点 数量 的 演化 


图 5-2 和 图 5-3 给 出 了 各 状态 传感器 节点 根据 时 间 变 化 的 数量 变化 趋势 。 因 为 考虑 的 

是 静态 控制 策略 ,所 以 令 yk CO Yir CO YS CO RI yo CO f (B 35] A 13x CR E A E 8 Id 
络 系统 和 恶意 程序 都 尽 各 自 最 大 的 主观 努力 程度 。 在 图 5-2 中 ,可 以 看 到 易 感 传感器 节点 
的 数量 从 一 开始 就 快速 下 降 且 在 时 刻 30 之 后 下 降 速度 变 得 非常 缓慢 。 同 时 ,在 无 线 传感器 
网 络 系统 尽 最 大 努力 安装 安全 补丁 的 前 提 下 ,康复 传感器 节点 的 数量 一 直 在 缓慢 增长 。 由 
于 恶意 程序 故意 尽 最 大 努力 杀 死 被 感染 传感器 节点 ,所 以 死亡 传感器 节点 数量 缓慢 增长 。 
当然 ,到 最 终 将 因为 所 有 传感器 节点 能 量 耗 尽 而 达到 所 有 传感器 节点 数量 的 总 和 ,此 时 也 意 
味 着 所 有 除 状态 D 以 外 其 他 状态 的 传感器 节点 数量 都 为 0。 在 图 5-3 中 ,可 以 看 到 处 于 休 
1000 

900 

800 

700 

600 F 


感 器 节点 数 
» 
S 


0 10 20 30 40 50 60 70 80 90 100 
时 刻 


图 5-2 静态 控制 策略 下 状态 STR 和 D 传感器 节点 数量 变化 趋势 
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眠 状态 的 各 种 状态 的 传感器 节点 数量 变化 趋势 。 这 些 趋 势 有 一 个 共同 的 特点 , 那 就 是 所 有 
处 于 休眠 状态 的 传感器 节点 数量 都 是 先 增长 然后 再 下 降 , 然 而 不 同 状 态 的 传感器 节点 数量 
达到 最 大 值 的 时 间 点 不 同 。 可 以 预见 ,虽然 状态 RR 的 传感器 节点 数量 下 降 缓慢 ,但 最 终 所 有 
这 些 处 于 休眠 状 态 的 传感器 节点 数量 都 将 趋 于 0。 

300 


传感器 节点 数 
E 


200 300 400 500 600 0 
时 刻 


图 5-3 ”静态 控制 策略 下 状态 S .了 和 RR 传感器 节点 数量 变化 趋势 


5.5.2 动态 控制 策略 对 被 感染 传感器 节点 数量 的 影响 


首先 来 观察 无 线 传感器 网 络 系统 的 主观 努力 程度 如 何 影 响 被 感染 传感器 节点 的 数量 。 
为 了 完成 本 实验 ,假设 ys OA ; 鹿 (2) 是 静态 的 且 均 设置 为 1, 也 就 是 说 ,恶意 程序 尽 最 大 的 
主观 努力 程度 ,然后 让 7 家 (2) 和 六 (72) 的 值 在 区 间 [0.1] 变 化 ,再 计算 出 时 刻 47 处 被 感染 传 
感 器 节点 的 数量 ,其 变化 趋势 如 图 5-4 所 示 。 从 中 可 以 看 出 , 随 着 ys CO f (6E 390. 0 变化 
到 1, 被 感染 传感器 节点 的 数量 缓慢 下 降 。 这 个 实验 结果 反映 出 无 线 传感器 网 络 系 统 增 加 
安装 安全 补丁 的 主观 努力 程度 对 被 感染 传感器 节点 数量 的 变化 影响 不 大 。 显 然 , 当 
yi GO REL 0 变化 到 0. 1 时 ,被 感染 传感器 节点 的 数量 急剧 下 降 , 然而 这 种 趋势 没有 持续 
TAS yir Odi A 0.1 变化 到 1 时, 下降 趋势 变 得 非常 缓慢 。 例 如 , 当 间 (2)=0 且 六 (DD)=0 
HE .1G) —337.ifij?4 yi (0 —0 BH. Yi 0 —0.1 BE. a) — 265. n] LUE 9| gc 3p (ge 8 8 
EFT 21.3696. 535b. y G)—0 H yn G) =1 时 ,1(1) 二 248, 可 见 , 随 着 yir Go KEMA 
1 降 到 0.1 时 ,被 感染 传感器 节点 数量 仅 下 降 了 6.4226. 


是 静态 的 且 值 均 为 1, 这 意味 着 无 线 传感器 网 络 系统 尽 最 大 的 主观 努力 程度 ,然后 让 yD 
和 yi GO RO fcfe E qe LO. 1] 变 化 ,再 计算 出 时 刻 52 处 被 感染 传感器 节点 的 数量 ,其 变化 趋 
势 如 图 5-5 所 示 。 从 中 可 以 看 到 随 着 yi CO) 0 变化 到 1, 被 感染 传感器 节点 的 数量 缓慢 下 
降 。 这 个 实验 结果 反映 出 恶意 程序 将 状态 工 的 传感器 节点 转换 为 状态 D 的 主观 努力 程度 
对 被 感染 传感器 节点 的 数量 影响 有 限 , 即 使 在 无 线 传感器 网 络 系统 尽 最 大 努力 安装 安全 补 
丁 时 也 是 如 此 。 而 当 ys (2) 的 值 从 0 变化 到 1 时 ,被 感染 的 传感器 节点 数量 的 增长 速度 很 
fe. fl. 24 yx (O0 —1 Hym (0 —0 H.C) = 381. m YE) —1 H yi Go —1 IT) 
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被 感染 传感器 节点 数 


Vie 


图 5-4 控制 yi CO AML tr CO ah AS E AE h pc RH (e eR A C e (e 


358, 可 见 被 感染 传感器 节点 的 数量 仅 减少 6.0496, 5 5.5 ys 00 =0 A yw (1) =0 AY, 
160) —5 3x UBI 24 yS GA 0 变化 到 1 时 ,被 感染 的 传感器 节点 的 数量 增长 了 75.2 倍 。 


0.4 
YS 


图 5-5 控制 yS COUR yib GO zl ASE e F A CR fc a 5 Sx CREE (b y 


Wo oo 02 


5.5.3 无 线 传感器 网 络 系统 和 恶意 程序 的 最 优 控制 策略 


本 实验 假设 整个 无 线 传 感 器 网 络 共 包 含 1000 个 传感器 节点 ,其 中 在 开始 时 被 感染 的 传 
感 器 节点 占有 很 小 的 比例 , 即 1000 —10. rH EE 5-1 分 别 得 到 的 无 线 传感器 网 络 系统 和 恶 
意 程序 的 最 优 控制 变化 如 图 5-6 所 示 。 从 控制 次 (CD 的 变化 来 看 ,无 线 传感器 网 络 系统 在 
开始 时 , 尽 最 大 的 主观 努力 程度 通过 安装 安全 补丁 的 方式 修复 易 感 或 被 感染 的 传感器 节点 ， 
但 为 了 节省 较 低 的 带宽 资源 ,在 时 刻 区 间 (14, 17) 时 ,无 线 传感器 网 络 系统 停止 了 修复 工 
作 , 而 当 过 了 时 刻 17 之 后 ,又 开始 了 修复 工作 。 从 控制 并 (7) 的 变化 来 看 ,无 线 传感器 网 络 
系统 在 开始 时 也 是 尽 最 大 主观 努力 程度 去 隔离 被 感染 的 传感器 节点 ,然后 在 时 刻 23 之 后 ， 
为 了 保持 正常 的 通信 而 停止 了 隔离 工作 ,而 当 过 了 时 刻 60 之 后 ,无 线 传感器 网 络 系统 又 开 
始 了 隔离 工作 。 从 控制 ys CO 的 变化 来 看 ,恶意 程序 从 一 开始 不 管 是 否 会 被 无 线 传感器 网 
络 系统 捕获 ,就 尽 最 大 努力 感染 那些 相 邻 的 易 感 传感器 节点 ,然后 在 时 刻 22 之 后 ,因为 被 感 
染 的 传感器 节点 数量 已 达到 它 所 期 望 的 数值 ,所 以 停止 了 感染 工作 。 从 控制 > 站 (2 的 变化 
来 看 ,恶意 程序 一 开始 没有 努力 让 被 感染 的 传感器 节点 失去 所 有 功能 。 这 里 有 一 个 有 趣 的 
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现象 , 那 就 是 在 时 刻 24,7% (7) 二 1, 这 意味 着 恶意 程序 应 该 要 开始 杀 死 被 感染 的 传感器 节 
点 ,但 它 毫 不 犹 褒 地 停止 了 杀 死 被 感染 传感器 节点 的 工作 。 这 里 的 原因 也 许 是 恶意 程序 认 
为 当时 杀 死 被 感染 的 传感器 节点 所 获得 的 利益 比 利 用 被 感染 的 传感器 节点 窃听 私密 数据 所 
获得 的 利益 要 高 ,这 样 的 行为 一 直 持续 到 时 刻 50, 随 后 恶意 程序 开始 杀 死 被 感染 的 传感器 
节点 。 


30 40 
时 刻 


图 5-6 ”无 线 传感器 网 络 系统 和 恶意 程序 的 最 优 控制 策略 


5.5.4 静态 控制 策略 和 最 优 控制 策略 的 成 本 比较 


图 5-7 给 出 了 式 (5-15) 在 静态 控制 策略 和 最 优 控制 策略 下 的 成 本 比较 ,其 中 静态 控制 
意味 着 无 线 传感器 网 络 系统 和 恶意 程序 都 尽 自己 最 大 的 主观 努力 程度 。 也 就 是 所 有 控制 
Yan (D Yir GO YS GO FAL Vib (2) 的 值 始终 保持 不 变 且 都 为 1; 而 最 优 控制 策略 是 基于 无 线 传 感 
器 网 络 恶意 程序 防御 微分 博弈 ,并 通过 算法 5-1 计算 得 到 的 无 线 传感器 网 络 系统 和 恶意 程 
序 的 遂 点 策略 。 从 图 5-7 中 可 以 看 出 ,最 优 控 制 策略 产生 的 总 成 本 小 于 静态 控制 策略 产生 
的 总 成 本 ,并 且 在 时 刻 20 后 这 种 差异 变 得 越 来 越 明显 ,使 总 成 本 降低 了 13. 08% ~ 
19. 94%。 这 些 结果 反映 出 无 线 传感器 网 络 系统 使 用 最 优 控 制 的 实用 性 。 

TALA 
一 一 静态 


2.5| 一 一 最 优 


0 10 20 30 40 30 60 70 
时 刻 


图 5-7 静态 控制 策略 和 最 优 控制 策略 下 的 成 本 比较 
5.5.5 最 优 控制 策略 下 的 各 状态 传感器 节点 数量 变化 趋势 


图 5-8 和 图 5-9 给 出 了 无 线 传感器 网 络 系统 和 恶意 程序 在 都 使 用 最 优 控制 下 的 各 状态 
传感器 节点 数量 的 变化 趋势 ,这 些 变化 趋势 虽 与 图 5-2 和 图 5-3 类 似 , 但 变 得 更 加 平坦 。 从 
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中 可 以 看 出 , 易 感 传感器 节点 数 的 减少 量 比 图 5-2 要 小 。 因 此 更 多 的 易 感 传感器 节点 为 了 
节省 能 量 受 无 线 传感器 网 络 系统 调度 进入 休眠 状态 ,所 以 状态 S 中 的 传感器 节点 明显 增加 。 
而 更 少 的 易 感 传感器 节点 被 恶意 程序 感染 ,因此 被 恶意 程序 故意 杀 死 的 传感器 节点 数 明显 
下 降 。 另 外 ,除去 被 无 线 传 感 器 网 络 系统 隔离 的 易 感 传感器 节点 ,进入 休眠 状态 的 易 感 传 感 
器 节点 数 也 明显 下 降 , 只 有 康复 传感器 节点 的 数量 没有 明显 改变 。 例 如 ,在 最 优 控制 策略 
下 ,当时 刻 为 65 时 ,S01)==325, S(41)=266, 1(1)=23, 了 (0)=2, R()=225, RG)=114 


和 DC —26; 而 在 静态 控制 下 ,S04) 二 23, S(1) 二 94, 1(1) 二 269, I (2) =188, R) —218, 
RG)—109 fil D(4) 二 98。 这 些 实验 结果 反映 出 采用 最 优 控制 能 明显 降低 被 感染 和 死亡 传 
感 器 节点 的 数量 ,从 而 可 以 有 更 多 的 传感器 节点 进行 正常 且 安 全 的 通信 ,有 效 地 延长 了 整个 
无 线 传 感 器 网 络 的 生存 期 。 
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图 5-8 最 优 控制 策略 下 状态 STR 和 DD 传感器 节点 数 变 化 趋势 
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图 5-9 最 优 控制 策略 下 状态 S .了 和 RR 传感器 节点 数 变化 趋势 
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5.6 小 结 


本 章 利用 微分 博弈 提出 了 一 种 防御 无 线 传感器 网 络 恶意 程序 传播 的 方法 。 在 考虑 无 线 
传感器 网 络 系统 和 恶意 程序 主观 努力 程度 的 前 提 下 ,通过 扩展 经 典 的 流行 病理 论 ,建立 了 能 
体现 传感器 节点 特性 的 无 线 传感器 网 络 恶意 程序 传播 模型 。 当 恶意 程序 动态 地 改变 其 控制 
策略 时 ,利用 建立 的 无 线 传感器 网 络 恶意 程序 防御 微分 博弈 能 为 无 线 传感器 网 络 系统 提供 
最 优 的 控制 策略 ,从 而 解决 了 在 最 大 程度 保证 正常 的 网 络 通信 与 最 低 程 度 降低 安装 安全 补 
丁 对 网 络 的 影响 之 间 的 矛盾 问题 。 本 章 得 到 的 无 线 传感器 网 络 系统 最 优 控制 策略 实质 上 是 
一 种 Bang-Bang 控制 , 因 其 应 用 方便 而 非常 适合 于 传感器 节点 环境 。 实 验 结果 验证 了 最 优 
控制 策略 能 明显 地 抑制 无 线 传感器 网 络 恶意 程序 的 传播 ,体现 了 最 优 控制 策略 的 有 效 性 ,从 
而 有 效 地 延长 了 整个 无 线 传感器 网 络 的 生命 期 。 
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基于 随机 博弈 的 受 攻击 无 线 传 感 问 
网 络 可 生存 性 评估 研究 


本 章 从 可 靠 度 和 可 用 度 两 方面 评估 受 攻击 无 线 传感器 网 络 的 可 生存 性 属性 。 由 于 恶意 
攻击 者 总 是 故意 发 动 恶 意 攻击 行为 ,通过 随机 博弈 给 出 这 些 理性 恶意 攻击 者 采取 恶意 攻击 
的 期 望 概率 ,将 聚 簇 无 线 传感器 网 络 看 作 一 个 串 一 并 系统 ,再 利用 连续 时 间 马 尔 可 夫 链 对 受 
攻击 传感器 节点 生命 期 的 所 有 状态 建立 模型 ,基于 可 靠 性 理论 得 到 计算 受 攻击 传感器 节点 
平均 无 故障 时 间 、 可 靠 度 、 生 存 期 和 稳 态 可 用 度 的 计算 公式 ,实现 受 攻击 无 线 传感器 网 络 的 
可 生存 性 评估 。 


6.1 引言 


无 线 传感器 网 络 在 军事 、 健 康 监测 .车辆 跟踪 等 众多 领域 具有 广泛 的 用 途 , 为 了 保证 这 
些 应 用 的 顺利 实现 ,要 求 无 线 传感器 网 络 具备 可 靠 和 可 用 的 能 力 , 甚 至 在 传感器 节点 被 恶意 
攻击 时 仍 能 正常 地 支持 具体 的 应 用 。 这 种 能 力 实际 上 就 是 无 线 传 感 器 网 络 可 生存 
(CSurviability) 能 力 , 它 是 无 线 传感器 网 络 在 安全 方面 的 终极 目标 。 在 应 用 可 生存 性 技术 之 
前 ,实现 可 生存 性 评估 是 关键 ,因此 ,无 线 传 感 器 网 络 可 生存 性 评估 已 成 为 当前 研究 者 的 热 
点 话题 之 一 ,这 将 为 构建 高 可 生存 的 无 线 传感器 网 络 提供 理论 基础 。 

可 生存 性 概念 最 早 来 源 于 军事 通信 网 络 ,要 求 即 使 有 一 些 通信 节点 在 被 破坏 的 前 提 下 , 
整个 军事 通信 网 络 仍 能 可 靠 地 运行 。 它 随 着 通信 网 络 向 现代 计算 网 络 的 转变 也 在 发 生 着 变 
化 ,但 通常 认为 可 生存 性 代表 了 一 个 系统 在 及 时 完成 某 项 任务 时 具有 的 能 力 , 尤 其 在 出 现 包 
括 攻击 和 大 规模 自然 灾害 等 危险 的 情况 下 5 。 从 评估 的 观点 来 看 ,可 生存 性 评估 包括 可 
靠 度 (Reliability) .可 用 度 (Availability) 和 容错 度 (Fault-tolerance) 等 属性 ,而 这 些 属性 通常 
使 用 平均 无 故障 时 间 (Mean Time To Failure) .平均 修复 时 间 (Mean Time To Repair) , ¥ 
均 故 障 间隔 时 间 (Mean Time Between Failure) 故障 率 (Failure Rate) ,修复 率 (Repair 
Rate) 和 错误 覆盖 率 (Falut-coverage Rate) 等 指标 体现 1 。 

在 可 生存 性 评估 的 模型 建立 方面 ,使 用 连续 时 间 马 尔 可 夫 链 (Continuous-Time 
Markov Chain) 这 种 建立 在 状态 空间 上 的 随机 模型 具有 很 大 的 方便 性 。 其 中 的 状态 空间 是 
一 个 由 一 组 离散 的 状态 组 成 的 集合 , 且 在 任意 的 一 个 时 间 点 上 ,系统 精确 地 处 于 某 一 状态 。 
这 些 状态 之 间 的 转换 常 使 用 一 个 状态 转移 矩阵 进行 描述 ,其 元 素 代 表 了 不 同 状 态 之 间 的 转 
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移 率 。 尤 其 要 说 明 的 是 ,连续 时 间 马 尔 可 夫 链 具备 马尔 可 夫 属 性 (Markov Property) ,意思 
是 转移 到 时 刻 :十 1 对 应 状态 的 转移 率 仅 依据 时 刻 c 的 状态 信息 ,与 时 刻 1 之 前 的 状态 信息 
无 关 。 

然而 , 仅 使 用 连续 时 间 马 尔 可 夫 链 还 无 法 面 对 因 恶意 攻击 者 通过 恶意 攻击 使 整个 无 线 
传感器 网 络 出 现 故障 的 情形 ,这 是 因为 无 线 传感器 网 络 中 的 恶意 攻击 者 经 常 有 意 发 动人 侵 
攻击 ,而 这 种 恶意 攻击 行为 就 不 能 使 用 随机 过 程 进行 描述 。 实 际 上 ,这 个 问题 可 考虑 使 用 博 
弈 论 方法 来 解决 。 作 为 解决 参与 者 之 间 决 策 问题 的 博弈 论 已 广泛 应 用 于 网 络 安全 领域 ,在 
各 种 不 同 的 博弈 模型 中 ,随机 博弈 已 作为 一 种 有 效 的 工具 被 用 于 预测 攻击 者 恶意 行为 的 建 
模 59 。 通 过 建立 随机 博弈 模型 ,可 计算 出 一 个 理性 的 恶意 攻击 者 采取 恶意 攻击 的 期 望 概 
率 , 这 样 , 就 可 以 把 恶意 攻击 者 成 功 实施 攻击 的 概率 与 连续 时 间 马 尔 可 夫 链 中 的 状态 转移 率 
结合 起 来 确定 一 个 传感器 节点 的 状态 变化 。 另 外 ,在 恶意 攻击 者 攻击 无 线 传感器 网 络 使 得 
传感器 节点 状态 变化 的 过 程 中 ,使 用 随机 博弈 不 仅 可 以 考虑 恶意 攻击 者 在 正常 实施 攻击 后 
得 到 的 正 收益 ,也 可 以 考虑 恶意 攻击 者 被 检测 到 后 对 其 产生 的 负 收 益 。 

本 章 从 可 靠 度 和 可 用 度 两 方面 评估 受 攻击 无 线 传感器 网 络 的 可 生存 性 属性 。 首 先 将 选 
择 研究 的 聚 秘 无 线 传感器 网 络 看 作 一 个 串 一 并 系统 ,这 样 就 可 以 应 用 经 典 可 靠 理论 中 已 有 
的 结论 。 因 为 恶意 攻击 者 总 是 故意 发 动 恶意 攻击 行为 ,通过 随机 博弈 给 出 这 些 理 性 恶意 攻 
击 者 采取 恶意 攻击 的 期 望 概率 ,再 利用 连续 时 间 马 尔 可 夫 链 对 受 攻击 传感器 节点 生命 期 的 
所 有 状态 建立 模型 ,就 可 得 到 计算 受 攻击 传感器 节点 平均 无 故障 时 间 、 可 靠 度 . 生 存 期 
(Survival Lifetime) 和 稳 态 可 用 度 的 计算 公式 ,实现 受 攻击 无 线 传感器 网 络 的 可 生存 性 
评估 。 

在 扩展 作者 前 期 工作 5 的 基础 上 ,本 章 的 工作 主要 包括 : 

CD 在 恶意 攻击 者 和 无 线 传感器 网 络 系统 之 间 建 立 一 个 零 和 两 人 攻击 预测 随机 博弈 模 
型 ,该 模型 能 得 到 理性 恶意 攻击 者 在 不 同 的 传感器 节点 状态 中 的 攻击 概率 ,从 而 为 恶意 攻击 
者 的 故意 攻击 行为 和 连续 时 间 马 尔 可 夫 链 的 随机 性 之 间 建 立 联系 。 

(2) 利用 连续 时 间 马 尔 可 夫 链 建立 受 攻击 传感器 节点 的 生命 期 模型 ,该 模型 能 描述 一 
个 传感器 节点 在 被 攻击 的 情况 下 所 导致 的 不 同 状态 ,从 而 可 以 得 到 计算 受 攻击 传感器 节点 
的 平均 无 故障 时 间 。 

(3) 构建 受 攻 击 无 线 传感器 网 络 的 可 生存 性 评估 机 制 ,包括 可 靠 度 、 生 存 期 及 稳 态 可 用 
度 , 从 而 为 设计 高 可 生存 的 无 线 传感器 网 络 黄 定 了 理论 基础 。 

本 章 其 余 章节 安排 如 下 : 6.2 节 介 绍 相关 工作 ; 6. 3 节 讨论 要 研究 的 聚 簇 无 线 传感器 
网 络 模型 并 把 它 看 成 是 一 个 串 一 并 系统 ,然后 给 出 针对 受 攻击 无 线 传感器 网 络 的 攻击 预测 
随机 博弈 模型 并 说 明 如 何 预 测 攻击 的 期 望 概率 ; 6. 4 节 从 可 靠 度 . 生 存 期 、 稳 态 可 用 度 3 个 
方面 给 出 受 攻击 无 线 传 感 器 网 络 的 可 生存 性 评估 机 制 ; 6. 5 节 通 过 实验 说 明 攻 击 者 采取 攻 
击 的 期 望 概率 与 博弈 参数 之 间 的 关系 ,以 及 这 种 期 望 概率 如 何 影响 一 个 受 攻击 传感器 节点 
的 平均 无 故障 时 间 。 另 外 ,还 验证 了 提出 的 可 生存 性 评估 机 制 的 有 效 性 ; 6. 6 节 给 出 本 章 
小 结 。 

本 章 涉及 的 符号 含义 如 下 : 

D, 表示 整个 随机 博弈 中 的 第 A 个 “阶段 博弈 ”。 

= 表示 整个 随机 博弈 包含 的 “阶段 博弈 ”个 数 。 
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me BAR" BEBE" DT 中 第 1 个 参与 者 可 使 用 的 纯 策略 个 数 。 

n" p BEER" D 中 第 2 个 参与 者 可 使 用 的 纯 策 略 个 数 。 

堆 表 示 当 参与 者 1 采取 纯 策 略 i 且 参 与 者 2 采取 纯 策 略 j 时 ,阶段 博弈 "Tv 的 瞬时 支 
付 (Instant Payoff) 。 

qidcn S549 1 采取 纯 策 略 i 且 参 与 者 2 采取 纯 策 略 j 时 性 阶段 博弈 ?Tv HERB, 
的 转换 概率 。 

ARRAS 1 采取 纯 策 略 i 且 参 与 者 2 采取 纯 策略 j 时 ,“ 阶 段 博 弈 "T 的 累积 支 
付 (Accumulated Payoff) 。 

qi RAMESH 1 采取 纯 策 略 i 且 参 与 者 2 采取 纯 策略 j 时 ,“ 阶 段 博 弈 "T' 的 结束 
概率 。 

ai 表示 “阶段 博弈 ”T 中 参与 者 1 采取 纯 策 略 i 的 概率 。 

B 表示 “阶段 博弈 "Tv 中 参与 者 2 采取 纯 策 略 j 的 概率 。 

d 表示 “阶段 博弈 ”T 中 参与 者 1 的 混合 策略 。 

B 表示 “阶段 博弈 "T 中 参与 者 2 的 混合 策略 。 

Ar 表示 用 于 计算 期 望 收益 的 矩阵 博弈 (Matrix Game) 。 

ve 表示 初始 "阶段 博弈 ?为 D. 时 整个 随机 博弈 的 期 望 收益 。 

v 表示 期 望 收益 向 量 。 

内 表示 当 * 阶 段 博弈 "T' 被 其 博弈 值 代替 后 的 累积 支付 值 。 

3 表示 适用 于 受 攻击 无 线 传感器 网 络 的 攻击 预测 随机 博弈 。 

a 表示 恶意 攻击 者 采取 动作 Attack, 即 实施 攻击 行为 。 

上 表示 恶意 攻击 者 采取 动作 Non-attack( 即 表现 出 正常 行为 ) 或 无 线 传感器 网 络 系 统 采 
取 动 作 Non-defend( 即 入侵 检测 机 制 处 于 关闭 状态 )。 

d 表示 无 线 传感器 网 络 系统 采取 动作 Defend( 即 入 侵 检测 机 制 处 于 开启 状态 ) 。 

翘 表示 恶意 攻击 者 将 阶段 博弈 D: RA D; 的 恶意 的 努力 程度 。 

0 表示 无 线 传感器 网 络 系统 将 阶段 博弈 T; 转换 到 忆 的 积极 的 努力 程度 。 

7 表示 一 个 传感器 节点 的 偶然 硬件 故障 率 (Accidental Hardware Failure Rate) 。 

轧 表 示 连 续 时 间 马 尔 可 夫 链 中 从 状态 i 转换 到 j 的 转移 概率 。 

o 表示 恶意 攻击 者 在 阶段 博弈 Dy 的 最 优 混合 策略 。 

a* 表示 恶意 攻击 者 的 最 优 混合 策略 集合 。 

S 表示 连续 时 间 马 尔 可 夫 链 中 的 离散 状态 空间 。 

:( 四 表示 一 个 传感器 节点 处 于 连续 时 间 马 尔 可 夫 链 中 状态 i 的 概率 。 

X; 表示 连续 马尔 可 夫 链 达到 稳 态 时 状态 i 的 概率 。 

表示 连续 马尔 可 夫 链 的 稳 态 矩阵 。 

A 表示 一 个 传感器 节点 的 故障 率 。 

Ri(t) 表 示 一 个 传感器 节点 的 可 靠 度 。 

Re, ORRE i RR A FY SEE 

Rr, (ORRA i 条 路 由 的 可 靠 度 。 

R(1) 表 示 整 个 无 线 传感器 网 络 的 可 靠 度 。 
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ST 表示 整个 无 线 传感器 网 络 的 生存 期 。 
As, 表示 连续 马尔 可 夫 链 达到 稳 态 时 一 个 传感器 节点 的 可 用 度 。 
A。 表示 连续 马尔 可 夫 链 达到 稳 态 时 整个 无 线 传感器 网 络 的 可 用 度 。 


6.2 相关 工作 


由 于 攻击 技术 的 不 断 增强 ,保护 无 线 传感器 网 络 完全 不 受 攻击 或 破坏 是 不 现实 的 ,提高 
无 线 传感器 网 络 的 可 生存 性 是 目前 解决 故障 和 攻击 问题 的 一 种 有 效 方法 。 实 际 上 ,可 生存 
性 作为 无 线 传感器 网 络 的 核心 目标 ,代表 了 无 线 传 感 器 网 络 安全 研究 发 展 的 新 方向 。 

网 络 系统 可 生存 性 表示 网 络 系统 在 遭受 攻击 和 意外 事故 的 情况 下 及 时 完成 任务 的 能 
HO ,也 就 是 说 ,有 任何 不 利 条 件 下 ,网 络 系统 可 生存 性 反映 了 计算 机 通信 系统 能 持续 满 
足 用 户 需 求 的 能 力 。2000 年 ,Knight 和 Sullivanc5 给 出 了 网 络 系统 可 生存 的 一 种 四 元 组 
表示 方法 。 杨 超 和 马 建 峰 “9 较 早 提出 了 规范 化 的 网 络 系 统 的 可 生存 性 定义 ,并 给 出 网 络 
系统 可 生存 性 的 形式 化 描述 及 其 实现 模型 。Habib 等 人 中 综述 了 光 通 信和 网 络 中 可 生存 性 
研究 的 现状 ,并 对 现 有 技术 作 了 合适 的 分 类 。Albano 等 人 中 综述 了 车 联 Ad Hoc 网 络 中 
容错 性 .可 恢复 性 .可 生存 性 等 研究 的 现状 。 

可 生存 技术 是 网 络 系统 在 人 侵 和 故障 已 发 生 的 情况 下 , 仍 能 使 网 络 具 有 完成 关键 任务 
FAA Jy) 。 这 些 技术 体现 在 无 线 传感器 网 络 中 ,主要 是 元 余 节 点 部 署 *** 、 多 路 径路 
由 [2s29 多 重 覆 盖 * ”操作 系统 容错 中、 网 络 编码 ?1 、 和 人 侵 容忍 的 安全 架构 "1 
等 。 张 万 松 和 王立 松 中 从 外 部 攻击 和 内 部 错误 两 方面 考虑 改进 无 线 传感器 网 络 节 点 操作 
系统 TinyOS 的 生存 性 ,设计 了 一 种 入 侵 检 测 与 恢复 机 制 ,并 将 TinyOS 的 调度 机 制 改进 为 
支持 容错 的 实时 调度 策略 。 

要 对 网 络 的 可 生存 性 属性 进行 量化 评估 ,首先 需要 建立 形式 化 的 数学 模型 。 目 前 ,网 络 
可 生存 性 评估 的 建 模 技术 主要 基于 系统 结构 中 状态 和 服务 组 件 "9' 25、 脆弱 模型 2 、 概 
率 模型 ”3] ,改进 的 逼近 理想 解 排序 法 Cs9 、 二 项 式 模型 * 、 模 糊 综合 评价 Cs20 攻击 
PEN fee a gg I .层次 化 评估 2425 等。 相 比 之 下 , 当 无 线 传感器 网 络 节点 受到 人 
侵 时 ,基于 状态 的 建 模 技术 更 适 于 描述 节点 的 变化 情况 。 而 能 对 网 络 系统 状态 进行 有 效 描 
述 的 随机 模型 有 多 种 ,如 马尔 可 夫 链 [ss A AR ek BO) 、 随 机 Petri 网 S59、 广 
义 随 机 Petri JE ,着色 Petri RE 、 随 机 博弈 网 Stochastic Game Net) 9 4 , H; p 3 /& 
可 夫 链 是 一 种 经 典 方法 。Buzacott 很 早 将 连续 时 间 马 尔 可 夫 链 用 于 寻找 可 修复 系统 的 故障 
时 间 ,在 其 经 典 论文 2 中 利用 连续 时 间 马 尔 可 夫 链 描述 了 可 修复 系统 的 各 状态 变化 ,并 建 
立 了 平均 无 故障 时 间 的 计算 公式 。Sallhammar 等 人 中 融合 随机 博弈 和 连续 时 间 马 尔 可 夫 
链 用 于 系统 的 可 依赖 度 (Dependability) 评 估 , 其 中 随机 博弈 被 用 于 计算 攻击 者 采取 攻击 的 
概率 ,从 而 将 攻击 者 的 攻击 行为 与 系统 之 间 的 状态 转变 建立 了 联系 ,并 采用 与 Buzacott 相 
同 的 方法 将 连续 时 间 马 尔 可 夫 链 用 于 计算 平均 无 故障 时 间 。Ghazisaidi ^j AC Ail FH fi 
率 方法 评估 无 源 光 纤 网 络 (Passive Optical Networks) 的 可 生存 性 。Zhao 等 人 器 利用 改进 
的 逼近 理想 解 排 序 法 (TOPSIS) 和 灰 关 联 分 析 法 (Grey Relation Analysis) 评 估 网 络 系统 的 
可 生存 性 ,其 中 逼近 理想 解 排序 法 被 用 于 指示 和 矩阵 的 规范 化 , 灰 关 联 分 析 法 被 用 于 计算 每 个 
关键 服务 的 关联 度 并 据 此 得 到 最 优 的 从 属 度 (Dependency Degree) ,从 而 实现 整个 网 络 的 可 
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生存 性 评估 。 沈 建春 等 人 9 采用 Delphi 方法 对 影响 网 络 系统 生存 性 的 各 种 因素 进行 分 
Vr ,确立 了 信息 网 络 系统 可 生存 性 评价 指标 体系 ,提出 了 一 种 基于 模糊 数学 方法 的 评估 模型 
以 适应 信息 网 络 系统 可 生存 性 评估 的 复杂 性 和 不 确定 性 。Zhao 和 Yul" RI cd REFS E 
入 侵 环境 ,通过 计算 入 侵 的 风险 度 确定 关键 服务 的 可 生存 性 。 熊 琦 等 人 ”利用 随机 博弈 
建立 了 入 侵 者 和 入 侵 容忍 系统 之 间 的 随机 博弈 模型 ,提出 了 面向 可 生存 性 研究 的 容 侵 系统 
状态 转换 模型 ,使 用 连续 马尔 可 夫 链 对 容 侵 系统 的 可 生存 性 进行 了 量化 分 析 和 评估 。 谢 波 
等 人 中] 给 出 了 满足 车 辆 自 组 织 网 络 (VANET) 特 点 和 实际 应 用 的 可 生存 性 定义 ,提出 了 基 
于 马尔 可 夫 链 的 平均 可 生存 性 量化 模型 。Jindal 等 人 "9 利用 马尔 可 夫 链 评估 蜂窝 网 的 可 
生存 性 。Wang 和 Yu” 结合 使 用 马尔 可 夫 链 和 排队 论 评 估 Ad Hoc 网 络 的 可 生存 性 。 刘 
di ^g ADT JE Petri 网 对 分 布 式 网 络 系统 进行 形式 化 描述 与 建 模 ,构建 了 分 布 式 网 络 系 
统 的 攻击 失效 模型 ,并 用 模糊 推理 方法 描述 分 布 式 网 络 系统 在 攻击 发 生 时 状态 的 变化 ,提出 
了 分 布 式 网 络 系统 可 生存 性 的 评价 参数 。 刘 梅 起 和 古 天 龙 Be9 利用 马尔 可 夫 链 分 析 Ad 
Hoc 网 络 的 可 生存 性 ,提出 了 可 以 表示 Ad Hoc 网 络 中 任意 两 个 节点 之 间 的 动态 数据 传输 
关系 和 受 故 障 影响 情况 下 的 广义 随机 Petri 网 模型 。 通 过 计算 任意 两 个 节点 连通 的 概率 ， 
从 节点 传输 范围 ,节点 平均 邻居 数目 和 故障 频率 等 方面 分 析 Ad Hoc 网 络 的 可 生存 性 。 
Xing 和 Wang") HPF Ad Hoc 网 络 的 可 生存 性 ,利用 半 马 尔 可 夫 过 程 ,建立 了 描述 恶意 
节点 状态 的 模型 。Peng 等 人 中 利用 连续 时 间 马 尔 可 夫 链 建立 了 描述 各 种 故障 状态 的 模 
型 。 根 据 文献 [254] 中 可 生存 性 定义 ,Chen 等 人 9 将 故障 导致 的 过 度 包 丢失 (Excess 
Packet Loss due to Failure) 作 为 Ad Hoc 网 络 可 生存 性 指标 ,并 将 文献 [254] 中 描述 系统 可 
生存 性 的 有 限 状态 自动 机 转换 为 连续 时 间 马 尔 可 夫 链 从 而 实现 过 度 包 丢失 的 计算 。Peng 
等 人 95 在 考虑 节点 软 硬 件 错误 和 连接 状态 基础 上 研究 大 规模 移动 Ad Hoc 网 络 中 的 可 生 
存 性 评估 问题 ,采用 与 Chen 等 人 229 相同 的 方法 将 有 限 状 态 自动 机 转换 为 连续 时 间 马 尔 可 
夫 链 ,并 在 传统 可 靠 性 理论 基础 上 从 稳 态 可 用 度 .连通 度 ,故障 节点 平均 数 .平均 生命 期 等 方 
面 给 出 了 段 段 路 由 (Segmentrby-segment Routing)、 多 路 径 段 段 路 由 (Multipath-based 
Segment-by-segment Routing )、 段 段 多 路 径路 由 (Segment-by-segment-based Multipath 
Routing) 的 可 生存 性 评估 。Sedaghatbaf 和 Abdollahi Azgomic 在 扩展 随机 活动 网 络 
(Stochastic Activity Networks) 基 础 上 提出 了 一 种 网 络 攻击 建 模 方法 ,实现 了 对 网 络 保密 
性 ,完整 性 、 可 用 性 等 的 分 析 , 并 从 安全 失效 平均 时 间 (Mean Time to Security Failure) 和 攻 
击 成 功 概率 (Attack Success Probability) 两 方面 量化 评估 网 络 的 安全 性 。 

然而 ,当前 对 网 络 系统 可 生存 性 评估 的 指标 并 不 统一 。 根 据 Al-Kuwaiti 等 人 5 的 观 
点 ,可 生存 性 包含 可 靠 性 .可 用 人 性、 容错 性 、 安 全 性 等 属性 。 相 比较 而 言 , 较 多 的 文献 关注 无 
线 传 感 器 网 络 的 可 靠 度 评估 ,这 些 方法 主要 有 有 序 二 又 判定 图 Fas 329、 增强 有 序 二 又 判定 
fal?) 连续 PH 分 布 (Continuous Phase type distributions) 和 Kronecker 代数 排队 论 
模型 52 。 肖 坤 等 人 5 采用 韧性 度 刻画 网 络 的 脆弱 性 ,提出 了 一 种 基于 韧性 度 的 Ad Hoc 
网 络 可 生存 性 度量 方法 。 肖 志 力 等 人 5 结合 联合 分 析 法 和 层次 分 析 法 ,提出 一 种 综合 评 
价 方法 ,用 于 评估 网 络 信 息 系 统 的 可 生存 性 。 魏 昭 等 人 中 提出 了 一 种 用 于 评判 多 种 移动 
Ad Hoc 网 络 可 生存 性 模型 的 建 模 及 其 仿真 验证 方法 。Kim 等 人 中 研究 多 通道 Ad Hoc 
军事 网 络 的 可 生存 性 评估 方法 ,给 出 了 多 通道 环境 下 连通 度 的 定义 ,通过 计算 节点 间 单 跳 链 
接 的 数量 评估 网 络 的 可 生存 性 。Wang 等 人 中 提出 了 一 种 统一 的 网 络 可 生存 性 评估 框架 ， 
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这 种 框架 具有 可 扩展 和 用 户 自 定义 的 特点 ,给 出 了 具体 的 测试 过 程 。Wang 和 Yu 将 灰 
关联 分 析 法 用 于 评估 Ad Hoc 网 络 的 可 生存 性 。 

5j Al-Kuwaiti 4 A C77 WAU AR E AE. Ming 等 人 中 认为 网 络 系统 可 生存 性 评估 的 指 
标 应 包括 可 用 性 (Availability) 可 控制 性 (Controllability)、 鲁 棒 性 (Robustness) 3& M TE 
(Adaptability)4 个 方面 。Sterbenz 4; A 9?! M Hi n] PX tE (Resilience) , 可 生存 性 、 崩 溃 容 忍 
性 (Disruption Tolerance) 评 估 网 络 的 指标 。Lin 等 人 55 采用 平均 非 连通 度 作为 评估 网 络 
被 恶意 攻击 后 的 可 生存 性 指标 。 吴 庆 涛 等 人 "1 认为 应 把 数据 机 密度 、 数 据 完整 度 、 服 务 可 
用 度 和 系统 自律 度 作为 自律 入侵 容忍 系统 的 可 生存 性 评估 指标 。 其 他 的 指标 还 有 KK- 连通 
HEC) ,攻击 环境 下 的 数据 分 发 率 (Delivery Rate under Attack)? 4$, Rak?" £p xj 35 4€ 
Mesh 网 络 容易 产生 区 域 失 效 (Region Failure) 的 问题 ,提出 了 区 域 失 效 可 生存 性 函数 、p 比 
例 区 域 可 生存 性 函数 (P-fractile Region Survivability Function) ,失效 后 总 发 送 数据 流 期 望 
比率 (Expected Percentage of Total Flow Delivered after a Failure) 等 评估 指标 。 

作为 博弈 论 中 的 一 种 博弈 类 型 ,随机 博弈 已 被 广泛 应 用 于 与 状态 转移 相关 环境 中 的 参 
与 者 决策 问题 。Lye 和 Wing? 利用 随机 博弈 分 析 传统 计算 机 网 络 中 恶意 攻击 者 和 网 络 管 
理 者 之 间 的 交互 ,使 用 非 线 性 规划 方法 计算 得 到 纳什 均衡 ,从 而 为 管理 者 增强 网 络 安全 提供 
了 最 优 响应 策略 。Chen 等 人 中 考虑 受 攻击 网 络 中 的 态势 感知 问题 ,通过 数据 融合 策略 实 
现 威胁 的 检测 和 预防 ,其 中 各 种 威胁 的 检测 在 第 二 层 数据 融合 时 由 智能 代理 实现 ,而 预测 在 
第 三 层 数 据 融合 中 由 一 个 分 布 式 的 随机 博弈 模型 实现 。Liu 等 人 "9 提出 一 种 内 部 随机 博 
弈 (Insider Stochastic Game) 解决 内 部 威胁 问题 ,通过 预测 内 部 攻击 者 的 恶意 行为 ,得 到 最 
优 的 防御 策略 。Nguyen 等 人 9 在 攻击 者 和 防御 者 之 间 建 立 了 基于 随机 博弈 的 安全 博弈 模 
型 ,得 到 的 纳什 均衡 被 用 于 帮助 人 们 理解 攻击 者 的 行为 ,从 而 为 人 侵 检测 系统 提供 了 如 何 防 
御 的 指导 。 为 了 给 无 线 网 络 中 各 种 用 户 提供 一 个 相互 成 功 竞 争 可 用 频谱 资源 的 机 会 ,Fu 和 
Schaar[s%o 利 用 随机 博弈 分 析 了 给 定 频谱 干扰 环境 下 用 户 之 间 的 交互 。Niyato 45 AP 基 
于 通道 保留 共享 方法 (Channel Reservation Sharing Method) 提 供 了 一 种 无 线 通道 访问 模 
式 , 其 中 将 联盟 博弈 用 于 共享 保留 的 通道 以 最 小 化 无 线 通道 访问 的 成 本 ,而 当 移动 用 户 的 
QoS 需求 面临 冲突 时 ,随机 博弈 被 用 于 协调 各 用 户 对 同一 个 无 线 通 道 的 访问 。 为 了 解决 认 
知 无 线 电网 络 中 的 拥塞 攻击 问题 , Wang 等 人 55 提出 一 种 能 适应 环境 动态 变化 和 攻击 者 策 
略 变化 的 反 拥 塞 随机 博弈 (Anti-jamming Stochastic Game) ,实现 拥塞 攻击 的 防御 。 

无 线 传感器 网 络 可 生存 性 分 析 和 评估 是 网 络 可 生存 性 理论 的 主要 研究 内 容 8 5。 然 
而 ,当前 关注 无 线 传感器 网 络 可 生存 性 评估 的 文献 还 不 多 。Di Pietro 和 Verde ?? fit ih jy JH 
传染 病 模型 研究 无 照料 的 无 线 传 感 器 网 络 的 数据 可 生存 性 。Parvin ^5 AC 利用 马尔 可 夫 
链 建立 了 描述 无 线 传感器 网 络 节点 在 受 攻 击 时 各 种 状态 变化 的 模型 ,并 以 DoS 攻击 为 例 ， 
确定 各 状态 进行 转换 的 阔 值 。 他 们 5 还 使 用 软件 再 生 (Software Rejuvenation) 技 术 增 强 
无 线 传 感 器 网 络 的 可 用 性 和 可 生存 性 ,利用 马尔 可 夫 链 建立 了 反映 节点 变化 的 状态 集 。 
Xiao 等 人 95 在 考虑 普通 传感器 节点 错误 基础 上 利用 增强 二 又 决策 图 算法 (Enhanced 
Ordered Binary Decision Diagran Algorithm) 评 估 无 线 传感器 网 络 的 可 靠 度 。Korkmaz 和 
Sarac” 二 为 了 给 可 靠 数据 传输 协议 提供 可 能 的 设计 选项 。 通 过 量化 单 跳 无 线 连 接 的 可 靠 度 
实现 了 整个 数据 转发 路 径 的 可 靠 度 评估 。 何 明 等 人 起 通 过 确定 是 否 满足 K-A wp K -E 
通 来 评估 无 线 传感器 网 络 的 可 靠 度 。 在 容错 度 评估 方面 , 王 良民 等 人 中 给 出 了 拓扑 容错 
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度 和 容 侵 度 作 为 拓扑 对 节点 失败 容忍 能 力 高 低 的 评估 标准 。 在 安全 度 评估 方面 , 詹 永 照 等 
AD fi] Monte Carlo 方法 评估 无 线 传感器 网 络 的 路 由 安全 。 在 可 生存 性 评估 方面 ， 
Masoum 等 人 5 在 考虑 网 络 错误 和 这 些 错 误 对 无 线 传感器 网 络 影响 的 基础 上 提出 无 线 传 
感 器 网 络 可 生存 性 评估 机 制 ,这 些 机 制 包括 无 线 传感器 网 络 达到 稳 态 时 的 网 络 连通 度 
(Connectivity) All fil 3 EE (Coverage) 。 王 海 涛 等 人 S0 给 出 了 应 急 通 信 中 无 线 传感器 网 络 的 
可 生存 性 评价 指标 集 , 建 立 了 基于 网 络 分 析 法 (ANP) 的 评价 模型 框架 ,然后 ,通过 该 方法 确 
定 了 相应 指标 的 权重 并 构建 了 无 线 传感器 网 络 生存 性 指标 体系 。 朱 世 才 等 人 5 提出 了 一 
种 基于 半 马 尔 可 夫 过 程 (SMP) 的 分 簇 无 线 传感器 网 络 可 生存 性 评估 模型 ,该 模型 在 考虑 应 
急 通 信 中 簇 头 生存 状态 的 基础 上 建立 了 基于 SMP 的 簇 头 生 存 状 态 转 移 图 ,再 结合 网 络 生 
存 性 需求 计算 无 线 传 感 器 网 络 的 生存 性 效用 函数 ,并 定量 分 析 了 多 种 评价 指标 对 网 络 可 生 
存 能 力 的 影响 。 另 外 ,Ma 和 Krings ^ 5 提出 应 用 动态 混合 故障 (Dynamic Hybrid Fault) 
模型 和 演化 博弈 研究 无 线 传感器 网 络 可 生存 性 的 思想 ,利用 演化 博弈 描述 节点 间 的 相互 行 
为 ,认为 节点 的 支付 就 是 它 的 可 靠 度 , 当 达到 演化 稳定 策略 (Evolutionary Stable Strategy) 
时 就 能 保证 网 络 的 可 生存 性 ,从 而 实现 无 线 传 感 器 网 络 的 可 生存 性 评估 。Petridou 等 人 5 
从 失效 频率 、. 数 据 丢 包 率 .数据 延迟 率 .数据 泄露 率 等 评估 无 线 传感器 网 络 的 可 生存 性 。 

与 上 述 相关 工作 不 同 的 是 ,本 章 着 重 关注 聚 复 无 线 传感器 网 络 的 可 生存 性 评估 。 本 章 
定义 的 能 预测 理性 恶意 攻击 者 采取 何 种 动作 概率 的 零 和 双人 攻击 预测 随机 博弈 类 似 于 
Sallhammar 等 人 忆 习 的 博弈 模型 , 且 本 章 根据 Sallhammar 等 人 呈 的 观点 建立 了 恶意 攻击 
者 累积 的 导致 传感器 节点 故障 的 努力 程度 和 连续 时 间 马 尔 可 夫 链 中 状态 转移 率 的 关系 。 然 
而 ,本 章 与 Sallhammar 等 人 中 明显 不 同 的 是 ,本 章 定义 的 攻击 预测 随机 博弈 很 好 地 满足 
了 聚 艇 无线 传感器 网 络 的 特性 。 更 进一步 ,本章 为 了 给 构建 高 可 生存 的 无 线 传感器 网 络 设 
计 提 供 理论 基础 ,因此 建立 了 受 攻击 无 线 传感器 网 络 的 可 生存 性 评估 机 制 。 而 Sallhammar 
等 人 9 主要 关注 基于 随机 模型 技术 的 安全 度 和 可 依赖 度 评估 。 本 章 采 用 传统 的 连续 时 间 
马尔 可 夫 链 反映 一 个 受 攻击 传感器 节点 的 状态 变化 过 程 , 给 出 的 状态 足以 适合 传感器 节点 
在 受到 恶意 攻击 时 的 实际 状况 。 本 章 虽 然 采 用 与 Buzacott5 轨 相同 的 方法 计算 一 个 受 攻击 
传感器 节点 的 平均 无 故障 时 间 ,但 本 章 进一步 得 到 了 受 攻击 传感器 节点 的 故障 率 和 可 靠 度 ， 
从 而 可 以 推导 出 整个 无 线 传感器 网 络 的 可 靠 度 、 生 存 期 \ 稳 态 可 用 度 等 公式 ,这 些 公式 构成 
了 部 署 在 受 攻击 环境 下 无 线 传 感 器 网 络 可 生存 性 评估 的 整个 机 制 。 另 外 ,本 章 通过 实验 说 
明了 恶意 攻击 者 的 期 望 动机 、 受 攻击 传感器 节点 的 平均 无 故障 时 间 以 及 整个 无 线 传 感 器 网 
络 的 可 靠 度 .生存 期 和 稳 态 可 用 度 。 


6.3 基于 随机 博弈 的 恶意 传感器 节点 期 望 动机 预测 


6.3.1 网 络 模型 


根据 无 线 传 感 器 网 络 结构 的 不 同 组 织 形 式 , 相 应 的 路 由 协议 可 以 分 成 两 大 类 : 平面 网 
络 结构 路 由 和 层次 网 络 结构 路 由 。 在 平面 网 络 结构 路 由 中 ,每 个 传感器 节点 在 与 其 他 传 感 
器 节点 通信 时 担任 相同 的 角色 ,以 泛 洪 的 方式 寻找 一 条 能 到 达 汇 聚 节点 的 路 由 。 这 种 方法 
对 规模 较 小 的 网 络 而 言 工作 效率 非常 高 ,然而 由 于 其 在 路 由 发 现时 需要 发 送 大量 泛 洪 信息 
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而 不 适合 密度 大 的 网 络 。 另 外 ,在 层次 网 络 结构 路 由 中 ,不 同 的 传感器 节点 具有 不 同 的 角色 
并 以 聚 簇 的 形式 被 组 织 起 来 ,这 种 结构 已 被 公认 能 有 效 延 长 无 线 传感器 网 络 的 生命 期 。 

正 因为 无 线 传感器 网 络 聚 簇 结构 具有 的 优点 ,本 章 选择 该 结构 研究 其 可 生存 性 评估 方 
法 。 如 图 6-1 所 示 ,在 这 种 聚 簇 无 线 传感器 网 络 中 ,自然 地 可 将 每 个 簇 对 应 一 个 并 行 系统 ， 
再 将 簇 的 集合 看 作 是 一 个 串 行 系统 ,所 以 ,从 一 个 源 传感器 节点 到 基站 的 路 由 就 可 看 作 是 一 
个 串 一 并 系统 。 当 然 ,路 由 数 不 止 一 条 ,因此 ,整个 无 线 传感器 网 络 就 可 以 看 作 是 一 个 复杂 
的 并 行 系统 ,数据 可 以 通过 不 同 的 并 行路 由 进行 传输 。 实 际 上 , 聚 簇 无 线 传感器 网 络 与 经 典 
可 靠 性 理论 中 的 串 一 并 系统 本 身 就 有 很 多 相似 之 处 。 无 线 传感器 网 络 中 的 每 个 传感器 节点 
所 处 的 地 理 环 境 大 致 相同 ,它们 相互 独立 。 也 就 是 说 ,一 个 传感器 节点 出 现 故障 不 会 导致 其 
他 传感器 节点 产生 故障 。 另 外 ,传感器 节点 经 常会 被 元 余部 署 从 而 增强 整个 无 线 传感器 网 
络 工作 的 可 靠 性 ,这 种 方法 在 典型 的 串 一 并 系统 中 也 是 被 广泛 应 用 ,从 而 增强 其 可 靠 性 。 在 
图 6-1 中 ,只 要 每 个 簇 的 簇 头 因 恶意 攻击 出 现 故障 ,无 线 传感器 网 络 就 会 立刻 从 候选 簇 头 中 
选举 出 新 的 簇 头 。 因 此 ,只 要 还 有 一 个 候选 复 头 能 正常 工作 ,那么 该 候选 徐 头 所 在 的 秘 即 能 
正常 工作 ,这 实际 上 正 是 一 个 并 行 系统 所 具有 的 特性 。 而 当 一 个 成 员 传感器 节点 感知 到 相 
应 数据 并 通过 其 他 相 邻 的 簇 头 传 输 到 基站 时 ,可 以 看 到 在 整个 数据 传输 过 程 中 ,只 有 所 有 路 
由 经 过 的 簇 头 正常 工作 ,数据 才能 被 正常 地 传输 到 基站 ,这 实际 上 正 是 一 个 串 行 系统 所 具有 
的 特征 。 因 此 ,一 条 路 由 中 所 有 簇 头 的 集合 就 可 以 看 成 由 独立 组 件 构成 的 一 个 串 行 系统 。 


CI C, 
CCH); / 
SN : d V BS 
CCH i» 
SN: 传感器 节点 C; SBil i € (012,7) 
CCH,; Bi BIAIS A BRI BS: 基 站 


i € (12,0) j € (1.2.0 m} 
图 6-1. SEP FAT BE h FE RCH fE Il I A0 4 E 


6.3.2 无 线 传感器 网 络 攻击 预测 随机 博弈 模型 


定义 6-1 面向 聚 簇 无 线 传感器 网 络 的 双人 零 和 攻击 预测 随机 博弈 是 一 个 五 元 组 S 一 
(N,T,A,Q,0), 其 中 : 

。 N 二 {恶意 攻击 者 .无 线 传感器 网 络 系统 } 表 示 参 与 者 集合 。 

* D— {Tv ,Tw Tc} 表示 “阶段 博弈 "集合 ,其 中 Tv Tw Dc 分 别 表示 受 攻击 传感器 节点 
的 3 个 状态 : 脆弱 (Vulnerable) , ££55 (Weak) .妥协 (Compromised) 。 

。 ASA, XA, 表示 恶意 攻击 者 可 采取 的 策略 集合 与 无 线 传 感 器 网 络 系统 可 采取 策略 
集合 的 笛 卡 儿 积 ,其 中 Ai={attack，non-attack} 是 恶意 攻击 者 可 采取 的 策略 集合 ， 
4: 一 {defend，nonrdefend} 是 无 线 传感器 网 络 系统 可 采取 的 策略 集合 。 

。，Q:TXAXPrFL0,1] 是 由 各 阶段 博弈 转移 矩阵 组 成 的 集合 。 

* UiDPXA; X A; tw 是 由 各 阶段 博弈 的 支付 矩阵 组 成 的 集合 。 
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在 定义 6-1 中 ,考虑 整个 随机 博弈 的 参与 者 包括 恶意 攻击 者 和 无 线 传感器 网 络 系统 。 
虽然 ,在 实际 的 无 线 传感器 网 络 中 有 各 种 各 样 的 攻击 者 ,但 它们 的 目的 都 是 为 了 破坏 传感器 
节点 。 因 此 ,使 用 参与 者 恶意 攻击 者 能 代表 那些 行为 相似 的 所 有 恶意 攻击 者 。 参 与 者 无 线 
传感器 网 络 系统 实际 上 是 无 线 传感器 网 络 的 人 侵 检测 机 制 。 由 于 定义 攻击 预测 随机 博弈 的 
目的 主要 是 预测 恶意 攻击 者 的 期 望 动机 ,因此 在 接 下 来 的 讨论 中 主要 从 参与 者 恶意 攻击 者 
方面 说 明博 弈 的 过 程 。 

一 个 传感器 节点 的 生命 期 包含 有 限 的 一 些 状态 ,这 些 状态 可 以 使 用 连续 时 间 马 尔 可 夫 
链 进行 描述 ,相应 的 各 状态 之 间 的 转换 关系 如 图 6-2 所 示 。 需 要 注意 的 是 图 6-2 中 的 py RR 
连续 时 间 马 尔 可 夫 链 中 的 状态 i 转换 到 了 的 概率 ,而 不 是 随机 博弈 中 阶段 博弈 转换 的 概率 。 

在 图 6-2 中 ,虽然 一 个 传感器 节点 整个 生命 期 的 状态 包 
fh: 健康 (Healthy, H) .脆弱 (Vulnerable.V) , ££ 5j (Weak, 
W), ZH Compromised. C) , MK (Failed. F) ,但 恶意 攻击 者 
关心 的 是 除 状态 H 和 下 外 的 其 他 状态 ,因此 ,阶段 博弈 集合 
应 该 是 P= (Dv ,Fw ,rc} 且 整个 攻击 预测 随机 博弈 从 阶段 博弈 
Dv 开始 。 但 从 传感器 节点 而 言 ,任何 一 个 传感器 节点 在 开始 
时 处 于 状态 万 , 当 无 线 传感器 网 络 入侵 检测 机 制 不 能 成 功 地 
检测 到 恶意 攻击 者 的 行为 且 恶 意 攻击 者 通过 探测 已 发 现 传 感 ”图 6-2 基于 连续 时 间 马 尔 
器 节点 存在 漏洞 时 ,传感器 节点 的 状态 即 从 H 转换 到 V。 亚 AEA REE E 
意 攻击 者 接 下 来 可 能 会 利用 这 些 漏洞 并 发 动 攻击 使 传感器 节 
点 状态 转换 为 W。 为 了 得 到 更 多 的 利益 .恶意 攻击 者 可 能 会 持续 攻击 并 突破 传感器 节点 的 
安全 防线 直至 将 传感器 节点 状态 转换 为 C。 这 种 被 转换 为 状态 C 的 传感器 节点 可 能 已 被 破 
坏 , 也 可 能 变 成 恶意 传感器 节点 ,从 而 干扰 整个 无 线 传感器 网 络 的 通信 。 另 外 ,任意 状态 的 
一 个 传感器 节点 都 有 可 能 因为 偶然 的 软 、 硬 件 故 障 导致 状态 转换 到 Fo 

为 简化 起 见 , 恶 意 攻 击 者 在 所 有 的 状态 中 包含 两 种 动作 , 即 attackCa) 和 non-attack(¢) . 
其 中 选择 动作 a 表示 实施 攻击 行为 ,选择 动作 多 表示 伪装 ( 即 不 实施 任何 攻击 ) 行 为 。 因 此 ， 
恶意 攻击 者 对 应 的 混合 策略 可 表示 为 


Pwit 


a = (ai ,at) (6-1) 
其 实质 代表 了 状态 恶意 攻击 者 在 行动 空间 A 上 动作 的 概率 分 布 ,当然 ,满足 条 件 
ai ta =l (6-2) 


实际 上 ,as R T REC EOM ERER Ar I OR EEE RR PEAR AS eR Uo 
的 概率 越 大 ,从 而 导致 传感器 节点 的 故障 率 越 高 。 针 对 恶意 攻击 者 的 动作 行为 ,无 线 传感器 
网 络 系统 可 供 选 择 的 动作 行为 包括 defend(d) 和 non-defend(%) 。 其 中 选择 动作 d RRK 
取 防 御 行 为 ,选择 动作 罗 表 示 未 采取 任何 防御 行为 。 相 应 地 ,在 状态 无 线 传感器 网 络 系统 
的 混合 策略 为 
E = (BBD (6-3) 
且 满 足 条 件 
遍 十 成 二 1 (6-4) 
为 了 计算 从 阶段 博弈 D, FEAR S] D, 中 的 转换 概率 o ,需要 对 恶意 攻击 者 选择 的 动作 和 
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对 应 的 无 线 传感器 网 络 系统 选择 的 动作 有 一 个 假设 前 提 。 当 整个 攻击 预测 随机 博弈 中 的 阶 
段 博弈 从 Tv 转换 到 Dw ,或 从 Tw 转换 到 Dc 时 ,意味 着 恶意 攻击 者 的 攻击 行为 未 被 检测 到 
且 被 成 功 实施 ,因此 ,可 得 到 恶意 攻击 者 和 无 线 传 感 器 网 络 系统 选择 的 动作 对 为 (a,%)。 同 
时 ,这 些 阶段 博弈 的 转换 还 跟 恶 意 攻 击 者 累积 的 导致 传感器 节点 故障 的 努力 程度 有 关 。 设 
05 为 恶意 攻击 者 将 阶段 博弈 D 转换 到 D 累积 的 导致 传感器 节点 故障 的 努力 程度 ,oz 为 无 
线 传感器 网 络 系统 将 其 他 的 状态 转换 为 H 的 主观 努力 程度 ,7 为 一 个 传感器 节点 的 偶然 硬 
件 故障 率 , 对 所 有 的 阶段 博弈 TT ,结合 在 阶段 博弈 Dy 时 恶意 攻击 者 选择 动作 a 的 概率 
过 ,就 可 以 定义 方 和 广 之 间 的 关系 。 例 如 ,对 阶段 博弈 Ty ,可 以 得 到 


pvw = alOvw (6-5) 
Dvu = pvn (6-6) 
pvr = 9 (6-7) 


因此 ,阶段 博弈 Ty 转换 到 Dw 的 转换 概率 为 


E _ [gw Cazüvw + pvu + p. #i=aHj=$ TEN 
lo. 其 他 
类 似 地 ,阶段 博弈 Tw 转换 到 Tc 的 转换 概率 为 
pc etm 二 pwn 十， dii—afWj—$ PUN 
0, 其 他 


最 后 来 分 析 攻 击 预测 随机 博弈 中 的 支付 矩阵 集合 。 对 每 个 阶段 博弈 I, 恶意 攻击 者 与 
无 线 传感器 网 络 系统 交互 时 能 得 到 一 个 瞬时 支付 芒 , 其 值 车 为 负数 则 表示 恶意 攻击 者 采取 
动作 所 产生 的 收益 小 于 支出 的 成 本 。 由 于 恶意 攻击 者 可 选择 的 动作 包括 a 和 多, 无 线 传 感 
器 网 络 系统 可 选择 的 动作 包括 d 和 多 .因此 总 共有 4 种 “动作 对 ”, 即 产生 4 个 瞬时 支付 。 对 
“动作 对 ”(a, doi zi , 它 能 使 阶段 博弈 Py 转换 到 Tw 或 Tw 转换 到 Dc ,这 样 的 结果 是 恶意 攻 
击 者 最 希望 看 到 的 。 因 为 这 种 结果 将 给 恶意 攻击 者 带 来 正 收益 ; 对 动作 对 (ae，c) 而 言 , 这 
是 恶意 攻击 者 最 不 希望 碰 到 的 。 因 为 这 意味 着 无 线 传感器 网 络 系统 将 积极 防御 恶意 攻击 者 
采取 的 恶意 攻击 ,从 而 使 恶意 攻击 者 遭受 损失 ; 其 他 的 两 个 动作 对 (% ,办 和 (%，c) 对 恶意 攻 
击 者 而 言 不 会 产生 收益 或 支出 成 本 ,但 它们 会 被 用 于 计算 恶意 攻击 者 在 是 否 选择 动作 a 或 
乡 时 的 概率 。 由 式 (2-16) ,就 可 得 到 阶段 博弈 Dv Tw Dc 的 累积 支付 分 别 为 


Lo Zi-aHj-$ 

g= (6-10) 

rye 其 他 

anf @#i=aHj=?# SEEDS 
The 其 他 

u$ = 1S (6-12) 


6.3.3 基于 攻击 预测 随机 博弈 的 攻击 预测 算法 


预测 恶意 攻击 者 的 攻击 行为 实质 是 计算 聚 秘 无 线 传感器 网 络 攻击 预测 随机 博弈 中 恶意 
攻击 者 的 最 优 策略 ,要 注意 的 是 整个 计算 过 程 建立 在 博弈 论 的 理性 参与 者 基础 上 ,也 就 是 
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说 ,每 个 参与 者 都 希望 最 大 化 自己 的 收益 。 由 于 与 恶意 攻击 者 采取 攻击 行为 相关 的 阶段 博 
弈 包括 Dv Tw 和 Tc: 因此 ,恶意 攻击 者 的 攻击 行为 预测 就 是 要 计算 这 些 阶段 博弈 中 恶意 攻 
击 者 的 混合 策略 纳什 均衡 ,也 就 是 说 ,要 使 得 恶意 攻击 者 在 最 大 化 自己 的 期 望 收 益 E Ca^. 
及 ) 基 础 上 得 到 其 在 不 同 阶段 博弈 中 的 混合 策略 ,其 中 对 

VD. € Dr. El P = >) Datpiys (6-13) 


i€A,j€A, 
BE ah” ME 分 别 为 每 个 阶段 博弈 Dy 中 恶意 攻击 者 和 无 线 传感器 网 络 系统 采取 的 最 优 
混合 策略 ,因为 本 章 定义 的 攻击 预测 随机 博弈 是 零 和 的 ,所 以 这 些 最 优 混合 策略 可 通过 计算 


max mink Ga g^) (6-14) 
得 到 。 这样 ,矩阵 博弈 As 的 值 val(Ae) 就 可 以 通过 计算 
val(At) = E(a* spt") (6-15) 
得 到 。 最 终 的 目标 是 要 得 到 恶意 攻击 者 在 不 同 阶段 博弈 的 整个 最 优 混合 策略 集合 
a” = la rsa" a) (6-16) 


下 面 给 出 相应 的 基于 攻击 预测 随机 博弈 的 恶意 攻击 者 攻击 预测 算法 。 

算法 6-1 计算 恶意 攻击 者 最 优 混合 策略 集合 。 

WAL 

输出 :a* 

1. 初始 化 期 望 收益 向 量 v 二 (ww ,vw vc) 三 (0,0,0)。 

2. 初 使 化 矩阵 博弈 Ac 二 (v5) 二 (45) 二 (7§)。 

3. 由 式 (6-14) 计 算 矩 阵 博 弈 Ac 中 恶意 攻击 者 和 无 线 传感器 网 络 系统 各 自 的 最 优 混合 
策略 cc 和 Be 。 

4. 设置 ve 一 val(Ac)=E(ac.85 )。 

5. 使 用 vc 替换 式 (6-11) 中 的 Tc 并 计算 得 到 vy, 从 而 形成 Aw 。 

6. 由 式 (6-14) 计 算 和 矩阵 博弈 Aw 中 恶意 攻击 者 和 无 线 传感器 网 络 系统 各 自 的 最 优 混合 
策略 a” il BY o 

7. 设置 ww 一 val(Aw) 一 ECow B" ) 。 

8. 使 用 vw 替换 式 (6-10) 中 的 Dw 并 计算 得 到 v5 ,从 而 形成 Av 。 

9. 由 式 (6-14) 计 算 和 矩阵 博弈 Av 中 恶意 攻击 者 和 无 线 传感器 网 络 系统 各 自 的 最 优 混合 


6.4 受 攻 击 无 线 传感器 网 络 的 可 生存 性 评估 


6.4.1 基于 连续 时 间 马 尔 可 夫 链 的 传感器 节点 各 状态 转换 关系 


由 于 在 无 线 传感器 网 络 中 ,触发 传感器 节点 转换 状态 的 事件 是 随机 的 ,这 种 特性 使 得 连 
续 时 间 马 尔 可 夫 链 是 建立 传感器 节点 状态 模型 合适 的 工具 。 在 受 攻 击 无 线 传感器 网 络 中 ， 
虽然 恶意 攻击 者 是 否 发 动 攻击 的 决策 不 是 随机 的 ,但 发 动 攻击 的 时 间 和 努力 程度 却 是 随机 
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分 布 的 ,况且 在 6. 3. 2 小 节 已 建立 恶意 攻击 者 的 故意 攻击 与 连续 时 间 马 尔 可 夫 链 中 状态 转 
换 之 间 的 联系 ,因此 ,将 一 个 传感器 节点 的 生命 期 看 作 是 一 个 动态 系统 ,从 而 可 以 应 用 连续 
时 间 马 尔 可 夫 链 这 种 随机 过 程 建立 相应 的 模型 。 
在 图 6-2 中 ,离散 状态 集合 可 表示 为 
S={H,V,W,C, F} (6-17) 


设 

X(t) = {Xu 0) Xv 0) Xw), Xc), Xr) ) (6-18) 
RP Xi) fE WEZ] t 一 个 传感器 节点 处 于 状态 ; 的 概率 , 则 描述 一 个 传感器 节点 状态 变化 
的 表达 式 为 


we = XWP (6-19) 


APP 为 不 同 状态 之 间 的 转换 关系 且 是 一 个 5X5 的 状态 转换 矩阵 ,其 元 素 ps 表示 状态 i 
和 j 之 间 的 转换 概率 ,可 表示 为 


lim (Prceheng from i to j in(¢,t+d?)) i 
di di 
ps = (6-20) 
- De i-j 
j*i 
于 是 ,独立 于 初始 状态 的 连续 时 间 马 尔 可 夫 链 稳 态 概率 为 
X 一 {XhyXv,Xw,Xc,XF} (6-21) 

可 以 从 包含 5 个 等 式 的 方程 组 中 解 得 ,该 方程 组 由 

XP 一 0 (6-22) 
形成 的 5 个 等 式 中 的 任意 4 个 等 式 再 与 第 5 个 等 式 

>)X=1 (6-23) 


组 合 得 到 。 
6.4.2 可 靠 度 和 生存 期 


无 线 传感器 网 络 可 靠 度 反 映 了 在 某 个 特定 时 间 某 个 特定 状态 下 传感器 节点 能 持续 数据 
感知 ,传输 .融合 等 的 概率 。 由 于 传感器 节点 一 旦 被 破坏 就 很 难 修复 ,因此 这 里 选择 平均 无 
故障 时 间 这 个 指标 来 反映 一 个 传感器 节点 的 可 靠 度 ,再 把 平均 无 故障 时 间 关 联 到 一 个 传 感 
器 节点 的 故障 率 , 就 可 以 得 到 以 串 一 并 系统 意义 上 的 整个 无 线 传感器 网 络 的 可 靠 度 。 

根据 Buzacotte 的 方法 ,从 一 个 连续 时 间 马 尔 可 夫 链 中 通过 计算 获得 平均 无 故障 时 
间 。 将 状态 空间 写成 


S = {Swak Spaun} (6-24) 
其 中 ， 
Swox = {H.V.W) (6-25) 
表示 传感器 节点 处 于 能 够 正常 工作 状态 的 集合 。 
Spa = {C.F} (6-26) 
表示 传感器 节点 处 于 故障 状态 的 集合 。 这 样 ,矩阵 也 就 可 重 写 为 
P= L "i (6-27) 
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式 中 ,Pi 为 由 各 个 工作 状态 之 间 转 换 概率 组 成 的 3X3 矩阵 ; P: 为 由 各 个 工作 状态 转换 到 各 
个 故障 状态 概率 组 成 的 3X2 矩阵 ;Ps 为 由 各 个 故障 状态 转换 到 各 个 工作 状态 概率 组 成 的 
2X3 矩阵; P. 为 由 各 个 故障 状态 之 间 转 换 概率 组 成 的 2X2 矩阵 。 相 应 地 ,可 将 连续 时 间 
马尔 可 夫 链 的 稳 态 概率 改写 成 


X = {Xwork» Xvaiture} (6-28) 
其 中 ， 

Xwok = {Xn, Xv, Xw} (6-29) 
Xr = {Xc, Xr} (6-30) 
给 定时 刻 :二 0 的 任意 一 个 工作 状态 X work CO ,一 个 传感器 节点 的 平均 无 故障 时 间 可 以 通过 
MTTF = Xwa(0) (— Pi) ^h (6-31) 

计算 得 到 ,其 中 ， 
Xwork (0) 一 Xwork /XwWorklt (6-32) 
kh=[1 1 17" (6-33) 


给 定 一 个 复杂 系统 中 的 单个 组 件 i, 其 可 靠 度 R: CO 和 平均 无 故障 时 间 都 可 以 从 它 的 故 
障 率 X;() 计 算得 到 。 为 简化 起 见 , 假 设 在 系统 运行 的 整个 时 期 内 故障 率 是 一 个 常量 , 即 


AQ) =A (6-34) 
则 可 得 
à = MTTF (6-35) 
Ri(t) = expC— AD (6-36) 
这 里 将 无 线 传感器 网 络 中 的 一 个 传感器 节点 看 作 一 个 复杂 系统 中 的 单个 组 件 ,并 由 于 


这 些 传感器 节点 具有 类 似 的 特性 ,所 以 可 假设 它们 具有 相同 的 故障 率 4, 并 假设 每 个 徐 包 含 
mm 个 传感器 节点 。 根 据 6. 3 节 的 分 析 , 整 个 无 线 传感器 网 络 可 以 看 作 由 多 个 簇 组 成 的 串 一 
并 系统 ,显然 ,每 个 传感器 节点 出 现 故 障 的 概率 是 相互 独立 的 ,一 个 簇 内 只 有 所 有 的 候选 徐 
头 都 出 现 故 障 才 会 使 该 簇 失去 正常 工作 的 能 力 。 因 此 ,可 得 到 一 个 簇 的 可 靠 度 为 


Re @) =1— [[üa—-RG» 9 1— (1—exp(—X))” (6-37) 
i=1 


因为 一 条 路 由 上 任意 一 个 簇 出 现 故障 就 会 导致 整 条 路 由 失败 ,所 以 可 得 到 一 条 路 由 的 可 靠 
度 , 即 


Rg (t) = [[ Ro) = (1— (1—exp(—X))")" (6-38) 
i=l 


式 中 ,为 一 条 路 由 经 过 的 复数 。 假 设 任意 一 条 传输 数据 的 路 由 所 经 过 的 复数 相同 , 则 整个 
无 线 传感器 网 络 的 可 靠 度 为 


1 
R@=1 lia Rg) = 1 — CO — (1 — expC— A2")! (6-39) 
izi 


式 中 ,! 为 整个 无 线 传感器 网 络 中 从 源 节点 到 基站 的 所 有 可 用 路 由 数 。 相 应 的 整个 无 线 传 
感 器 网 络 的 生存 期 为 


ST [Roa [a (( — (1— exp(— 1 ))”)") dt (6-40) 
à i 
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6.4.3 稳 态 可 用 度 


虽然 整个 无 线 传感器 网 络 的 可 用 度 与 可 靠 度 密切 相关 ,但 它 代表 了 传感器 节点 在 给 定 
时 间 间 隔 中 任意 的 一 个 时 刻 具 备 执行 指定 功能 如 数据 感知 ,传输 .融合 等 的 能 力 。 实 际 上 ， 
可 靠 度 代表 了 一 段 时 间 内 处 于 正常 工作 的 能 力 , 而 可 用 度 代表 了 当 任 务 在 任意 一 个 时 刻 需 
要 启动 时 处 于 正常 工作 的 能 力 。 这 里 选择 连续 时 间 马 尔 可 夫 链 为 传感器 节点 的 整个 生命 期 
建立 模型 ,因此 主要 考虑 整个 无 线 传感器 网 络 的 稳 态 可 用 度 。 从 数学 语言 的 角度 来 讲 , 稳 态 
可 用 度 代表 了 当时 间 无 限 扩展 时 瞬时 可 用 度 函 数 的 极限 值 , 即 
As, = limA, CO (6-41) 
式 中 ,As 为 传感器 节点 i 的 稳 态 可 用 度 ; 瞬时 可 用 度 函 数 A, (7) 表 示 传 感 器 节点 i ERA t 
能 正常 提供 所 需 功能 的 概率 。 在 稳 态 可 用 度 的 实际 计算 过 程 中 ,可 通过 计算 连续 时 间 马 尔 
可 夫 链 的 稳定 点 得 到 ,此 时 一 个 传感器 节点 的 可 用 度 是 一 个 常量 值 , 即 


As, = Xu+Xv+Xw (6-42) 
与 6. 4. 2 小 节 类 似 的 推导 可 得 到 整个 无 线 传感器 网 络 的 稳 态 可 用 度 为 
Av = 1— (1. — 0.— Ag)! (6-43) 


6.5 实验 


使 用 MATLAB R2010a, 接 下 来 分 析 不 同 的 博弈 参数 如 何 影 响 恶 意 攻击 者 的 期 望 动 
机 ,以 及 一 个 受 攻击 传感器 节点 的 平均 无 故障 时 间 在 状态 Y 和 W 如 何 依赖 于 恶意 攻击 者 
的 期 望 动机 。 最 后 ,从 可 靠 度 .生存 期 、 稳 态 可 用 度 3 个 方面 给 出 整个 无 线 传感器 网 络 可 生 
存 性 评估 。 


6.5.1 恶意 攻击 者 的 期 望 动机 


无 线 传感器 网 络 攻击 预测 随机 博弈 中 的 不 同 动作 策略 将 影响 恶意 攻击 者 的 期 望 动机 。 
当 恶 意 攻击 者 选择 动作 a 而 无 线 传感器 网 络 系统 选择 动作 几时 ,恶意 攻击 者 将 得 到 一 个 正 
收益 ,恶意 攻击 者 在 接 下 来 的 攻击 继续 成 功 的 话 , 他 将 进一步 获得 更 多 的 正 收益 。 另 外 , 当 
恶意 攻击 者 选择 动作 a 而 无 线 传感器 网 络 系统 选择 动作 d 时 ,恶意 攻击 者 将 遭受 损失 。 因 
此 最 终 收 益 值 会 影响 恶意 攻击 者 在 选择 动作 a 还 是 % 的 期 望 动机 的 决策 。 
根据 算法 6-1, 恶 意 攻 击 者 的 期 望 动机 a* = {ay,aw,ac } 是 从 阶段 博弈 Dv Tw Dc 中 计 
算得 到 的 最 优 混合 策略 组 成 的 集合 。 虽 然 在 不 同 的 阶段 博弈 中 存在 不 同 的 收益 值 ,但 只 要 
选择 任意 一 个 阶段 博弈 D, ,就 可 说 明博 弈 参数 将 如 何 影响 恶意 攻击 者 的 期 望 动机 ,为 说 明 
这 种 影响 ,假设 任意 的 一 个 阶段 博弈 T 的 支付 矩阵 如 表 6-1 所 示 。 
表 6-1 阶段 博弈 D, 的 支付 矩阵 
动作 Non-defend($) Defend(d) 
Attack (a) 1 Tad 
Non-attack ($) Ta 0 
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在 区 间 [ 一 10,0] 上 分 别 改变 表 6-1 中 rw 和 rw 的 值 ,就 可 以 得 到 恶意 攻击 者 的 期 望 动 
机 是 如 何 由 “动作 对 ”(a, d) 和 ($,$) 带 来 的 负 收 益 决 定 的 。 在 决策 过 程 中 ,可 利用 式 (6-14) 
求解 De 的 纳什 均衡 得 到 恶意 攻击 者 的 最 优 混合 策略 a 一 (o ,of )。 图 6-3 给 出 了 恶意 攻 
击 者 的 最 优 攻击 概率 at” 与 博弈 参数 rw 和 rw 之 间 的 关系 。 


图 6-3 as” 与 博弈 参数 rw 和 rw 之 间 的 关系 


在 图 6-3 中 ,x Aly 轴 和 x 轴 分 别 表示 rara ai 。 首 先 , 设 rw 是 静态 的 而 rw 是 动 
态 变化 的 ,就 可 以 得 到 最 优 攻 击 概率 at” 的 相应 变化 。 例 如 , 当 ree =—1 Hore =—5 时 ， 
ah” 20.7143; P r4, — —6 H rw 二 一 5 时 ,at” 盖 0.4167。 这 表明 最 优 攻击 概率 随 着 “动作 
RE Cay d) 损 失 的 增 大 而 减 小 。 其 次 , 设 rw 是 静态 的 而 rw 是 动态 变化 的 ,可 以 看 到 最 优 攻 
击 概率 随 着 “动作 对 ”($.$) 损 失 的 增 大 而 增 大 。 例 如 , 当 ru — —1 H rw 二 一 1 时 ,at m 
0.3333; "ira — —1 H ry — —8 时 ,o ~0. 8000。 最 后 来 观察 as” 何 时 达到 极 值 。 显 然 ， 
当 rw 二 0 时 ,o% 二 1, 这 意味 着 恶意 攻击 者 的 最 优 攻 击 概率 达到 最 大 。 实 际 上 ,此 时 动作 a 
是 严格 占 优 的 ,因此 恶意 攻击 者 将 始终 选择 动作 a。 另外, 当 rw=0 H rw 二 0 时 ,at” 一 0, 这 
意味 着 恶意 攻击 者 的 最 优 攻 击 概 率 达 到 最 小 ,此 时 恶意 攻击 者 无 意 选 择 动作 a, 因为 与 选择 
动作 乡 导 致 的 零 收 益 相 比 ,选择 动作 a 将 获得 负 的 期 望 收益 值 。 

6.5.2 受 攻 击 传感器 节点 的 平均 无 故障 时 间 

根据 式 (6-31) ,一 个 受 攻击 传感器 节点 的 平均 无 故障 时 间 的 影响 因素 主要 是 连续 时 间 
马尔 可 夫 链 达到 稳 态 时 的 各 状态 概率 以 及 处 于 正常 工作 状态 的 状态 转移 矩阵 ,这 些 概率 可 
通过 计算 式 (6-22) 和 式 (6-23) 得 到 。 另 外 .状态 转移 矩阵 己 中 的 状态 转移 概率 pyw 和 pwe 
分 别 与 最 优 攻击 概率 sy ”和 a”” 有关 ,ps (i 二 站 可 以 从 式 (6-20) 获 得 。 因 此 , 接 下 来 ,根据 
ay” 和 aY” 的 变化 讨论 对 受 攻击 传感器 节点 平均 无 故障 时 间 的 影响 ,结果 如 图 6-4 所 示 。 

在 图 6-4 中 ,x 轴 、y 轴 和 x< 轴 分 别 表示 aL var 和 一 个 受 攻击 传感器 节点 的 平均 无 故障 
时 间 。 根 据 经 验 值 ,假设 y=1/300, Ow=1/3. Owc —3. pw=1/50, pva —1/3. pwu —1/40. 
Pci =1/100 和 pew =1/200 (每 时 )。 由 图 6-2, Paw = Puc = pve = Pw = poa = Pow = pr 
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p 0.4 ve 0.5 
图 6-4 平均 无 故障 时 间 与 必 ” 和 way” 的 关系 
bw 一 brc 一 0。 因 此 ,状态 转移 矩阵 为 


— Gov + 9) Puv 0 0 7 
bvu — (pvu 十 o Ow +) al Ow 0 7 
p= pwn 0 — (pwu tak Owe +9) av Owe 7 
bon 0 0 = (pen + p 7 
bru 0 0 0 — prn 


其 中 ,最 优 攻击 概率 aY” 和 a”” 由 算法 6-1GT3E48 54. WT fede jh. EE oY” Mat” 在 
KEL 0.4, 1j 之 间 变 化 。 

从 图 6-4 中 可 看 出 , 当 恶 意 攻 击 者 在 状态 V 选择 动作 a 的 概率 持续 增加 时 ,一 个 受 攻 
击 传感器 节点 的 平均 无 故障 时 间 显 著 减 小 。 例 如 , 当 a” =0.4 Had —0.4 时 ,MTTF 之 
58.845h; 当 a” =0. 4 H aY —1 Rf}, MTTF 249. 585h, 与 前 者 相 比 将 近 减 少 了 15. 74%。 
另外 , 当 恶 意 攻击 者 在 状态 W 改变 攻击 概率 时 ,对 一 个 受 攻击 传感器 节点 的 平均 无 故障 时 
间 的 影响 微乎其微 。 例 如 ,在 a””  —0.4 前 提 下 ,让 a” 从 0.4 变化 到 1,MTTF 的 值 仅 细小 
地 从 58. 845h 变化 到 58.182h。 这 些 实验 结果 反映 出 在 状态 V 恶意 攻击 者 期 望 动机 对 一 个 
受 攻 击 传感器 节点 的 平均 无 故障 时 间 影 响 要 大 .因此 在 状态 V 预测 恶意 攻击 者 的 期 望 动 机 
比 在 状态 W 更 重要 。 


6.5.3 整个 无 线 传感器 网 络 的 可 靠 度 和 生存 期 


根据 式 (6-39) ,整个 无 线 传感器 网 络 的 可 靠 度 与 一 个 受 攻 击 传感器 节点 的 故障 率 、 一 

个 得 内 的 传感器 节点 数 、 一 条 路 由 上 所 经 过 的 簇 头 数 和 整个 无 线 传感器 网 络 可 用 的 路 由 数 

等 都 有 关联 。 故 障 率 可 从 平均 无 故障 时 间 的 表达 式 (6-35) 计 算得 到 , 接 下 来 将 讨论 RO) 

和 不 同 参数 m,n 和 值 的 关系 。 为 得 到 一 个 受 攻击 传感器 节点 的 平均 无 故障 时 间 , 首 先 应 
该 计算 ax” 和 a””。 根据 6. 5. 2 小 节 中 给 定 的 经 验 值 ,可 得 到 

qa! 一 abgvw/(asgvw + eva + 3) ~ 0. 8621 (6-44) 

q% = at Owe/ (at Owe + pwu + 3) ~ 0.9906 (6-45) 
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Brh =r =r =l, ra 4 3.75 2205 =r r$ 5 Al rk =rw =ru =0. 48 
应 地 阶段 博弈 就 可 分 别 写成 
1-4-0.8621Tw 一 4 
Iv = | | (6-46) 
=) 0 
1 十 0.9906Fc 一 3 
Iw = | | (6-47) 
一 后 0 
1 —2 
Tc = | | (6-48) 
—5 0 
通过 算法 6-1 可 解 攻击 预测 随机 博弈 ,得 到 
ai = la sat’ aS" } ~ (0.6000, 0. 6442, 0. 6250} (6-49) 


这 些 在 不 同 阶段 博弈 的 最 优 攻 击 概 率 被 用 于 状态 转移 矩阵 P 中 后 ,就 可 逐步 计算 得 到 整个 
无 线 传感器 网 络 的 可 靠 度 和 生存 期 。 

实验 结果 如 图 6-5 和 图 6-6 所 示 ,其 中 图 6-5 给 出 了 当 n=3 H /=3 时 ,一 个 簇 内 传 感 
器 节点 分 别 为 2.4、6 对 应 的 整个 无 线 传感器 网 络 可 靠 度 变化 曲线 ; 图 6-6 给 出 了 当 n—6 
H /二 3 时 ,一 个 簇 内 传感器 节点 数 分 别 为 2、4、6 对 应 的 整个 无 线 传感器 网 络 可 靠 度 变化 
曲线 。 


可 靠 度 


——— eee 
20 40 60 80 100 120 140 0 
时 间作 


图 6-5 当 x 一 3 且 / 一 3 时 整个 无 线 传感器 网 络 的 可 靠 度 


从 图 6-5 可 以 看 出 , 当 n AL 为 静态 值 时 .一 个 簇 内 的 传感器 节点 数 越 多 ,整个 无 线 传 
感 器 网 络 的 可 靠 度 越 大 。 例 如 ,在 恶意 攻击 者 的 攻击 环境 中 ,要 使 整个 无 线 传感器 网 络 的 可 
靠 度 降 到 0. 5, 当 一 个 簇 内 的 传感器 节点 数 分 别 为 2.4、6 时 ,需要 的 时 间 分 别 为 55h、83h 和 
107h, 与 图 6-6 比较 , 当 一 条 路 由 所 经 过 的 簇 数 从 3 增加 到 6 时 ,整个 无 线 传感器 网 络 的 可 
靠 度 明显 下 降 。 例 如 , 当 m= 二 2 时 ,要 使 整个 无 线 传感器 网 络 的 可 靠 度 下 降 到 0. 5 ,在 图 6-5 
所 示 的 环境 中 需要 55h, 而 在 图 6-6 所 示 的 环境 中 只 需要 35h, 大 约 减 少 了 36. 36%。 这 些 
结果 反映 出 为 了 提高 整个 无 线 传感器 网 络 的 可 靠 度 ,应 该 增加 同一 个 簇 内 的 传感器 节点 数 
而 尽量 减少 一 条 路 由 需 经 过 的 簇 数 。 
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下 面 讨论 整个 无 线 传感器 网 络 生存 期 的 变化 情况 ,图 6-7 至 图 6-9 分 别 给 出 了 ! 为 静 
态 值 且 /二 3、m WASH A m —3 和 7 为 静态 值 且 "一 3 对 应 的 生存 期 变化 曲线 。 
在 图 6-7 中 ,整个 无 线 传感器 网 络 生存 期 随 着 一 个 簇 内 传感器 节点 数 的 增加 和 一 条 路 
由 上 经 过 簇 数 的 减少 而 增加 .但 这 些 变化 趋势 也 有 很 大 的 不 同 。 例 如 , 当 m==3 REL BÉ TE n 
值 从 8 变化 7, 整 个 无 线 传感器 网 络 的 生存 期 从 45h 缓慢 增长 到 48h; 而 随 着 (EL 3 变化 
到 2, 整 个 无 线 传感器 网 络 的 生存 期 从 76h 迅速 增加 到 96h。 又 如 , 当 x 一 3 时 , 随 着 mm (A 
2 变化 到 3 ,整个 无 线 传感器 网 络 的 生存 期 迅速 从 58h 增加 到 76h; 而 随 着 m 值 从 6 变化 到 
7, 整 个 无 线 传感器 网 络 的 生存 期 仅 缓慢 地 从 109h 增加 到 116h。 在 图 6-8 中 ,可 以 看 到 整 
个 无 线 传感器 网 络 的 生存 期 随 着 一 条 路 由 经 过 的 复数 的 减少 和 整个 无 线 传感器 网 络 路 由 数 
的 减少 而 增加 。 而 在 图 6-9 中 ,可 以 看 到 整个 无 线 传感器 网 络 的 生存 期 随 着 一 个 秘 内 传 感 
器 节点 数 的 增加 和 整个 传感器 网 络 路 由 数 的 增加 而 增加 。 
1.01 
09r 
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图 6-6 "i n—6 H 1—3 时 整个 无 线 传感器 网 络 的 可 靠 度 
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图 6-7 94 1—3 时 的 整个 无 线 传感器 网 络 的 生存 期 
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图 6-8 H m—3 时 的 整个 无 线 传感器 网 络 的 生存 期 
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图 6-9 4 n=3 时 的 整个 无 线 传感器 网 络 的 生存 期 
6.5.4 稳 态 可 用 度 


与 6. 5. 3 小 节 整 个 无 线 传感器 网 络 生存 期 实验 类 似 , 整 个 无 线 传感器 网 络 的 稳 态 可 用 
度 实验 也 包括 3 个 方面 ,结果 如 图 6-10 一 图 6-12 所 示 。 
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图 6-10 当 /一 3 时 整个 无 线 传感器 网 络 的 稳 态 可 用 度 
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在 图 6-10 中 ,整个 无 线 传感器 网 络 的 稳 态 可 用 度 随 着 一 个 簇 内 传感器 节点 数 的 增加 和 
一 条 路 由 经 过 簇 数 的 减 小 而 增 大 。 与 整个 无 线 传 感 器 网 络 的 生存 期 变化 趋势 类 似 的 是 , 稳 
态 可 用 度 的 变化 趋势 也 有 很 大 的 不 同 。 例 如 , 当 m==3 AY BER n HAA 8 变化 到 7, 整 个 无 线 
传感器 网 络 的 稳 态 可 用 度 缓慢 地 从 0. 0832 增加 到 0. 1277; 而 随 着 n (A 3 变化 到 2, 整 个 
无 线 传 感 器 网 络 的 稳 态 可 用 度 迅 速 地 从 0.6005 增加 到 0. 7957. Xin, 24 n= 3 时 , 随 着 
m 值 从 2 变化 到 3, 整 个 无 线 传感器 网 络 的 可 用 度 迅 速 地 从 0. 3215 增加 到 0. 6005; 而 随 着 
m 值 从 6 变化 到 7, 整 个 无 线 传感器 网 络 的 稳 态 可 用 度 微小 地 从 0. 9611 增加 到 0.9843。 在 
图 6-11 中 ,整个 无 线 传感器 网 络 的 稳 态 可 用 度 随 着 一 条 路 由 经 过 的 簇 数 的 减少 和 整个 无 线 
传感器 网 络 路 由 数 的 减少 而 增加 。 而 在 图 6-12 中 ,整个 无 线 传感器 网 络 的 稳 态 可 用 度 随 着 
一 个 簇 内 传感器 节点 的 增加 和 整个 无 线 传感器 网 络 路 由 数 的 增加 而 增加 。 另 外 ,还 可 以 看 
出 ,一 个 簇 内 传感器 节点 数 和 一 条 路 由 经 过 的 簇 数 对 整个 无 线 传感器 网 络 稳 态 可 用 度 的 影 
响 比 整个 无 线 传感器 网 络 的 路 由 数 要 大 。 


稳 态 可 用 度 


图 6-11 4 m=3 时 整个 无 线 传感器 网 络 的 稳 态 可 用 度 
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图 6-12 4 n=3 时 整个 无 线 传感器 网 络 的 稳 态 可 用 度 
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6.6 小 结 


为 构建 高 可 生存 的 无 线 传感器 网 络 , 本 章 提出 了 一 种 面向 受 攻击 无 线 传感器 网 络 的 可 
生存 性 评估 机 制 。 本 章 选择 能 量 效 率 较 高 的 聚 簇 无 线 传感器 网 络 作为 研究 主体 ,并 把 它 看 
作 可 靠 性 理论 中 的 一 个 串 一 并 系统 ,通过 提出 一 种 能 得 到 理性 恶意 攻击 者 期 望 动机 的 攻击 
预测 随机 博弈 ,解决 了 恶意 攻击 者 攻击 行为 的 故意 性 与 连续 时 间 马 尔 可 夫 链 中 的 随机 性 之 
间 的 矛盾 。 得 到 的 恶意 攻击 者 最 优 攻击 概率 被 成 功用 于 连续 时 间 马 尔 可 夫 链 中 的 状态 转移 
和 矩阵 ,从 而 成 功 地 建立 了 受 攻击 传感器 节点 的 生命 期 模型 。 在 此 基础 上 ,依次 得 到 了 一 个 受 
攻击 传感器 节点 的 平均 无 故障 时 间 、 可 靠 度 、 生 存 期 和 稳 态 可 用 度 , 这 些 评估 指标 反映 了 受 
攻击 无 线 传感器 网 络 的 可 生存 特性 。 实 验 结果 表明 ,恶意 攻击 者 的 期 望 动机 与 攻击 预测 随 
机 博弈 中 的 博弈 参数 有 很 大 的 联系 ,并 且 得 到 了 为 有 效 延 长 受 攻击 传感器 节点 的 平均 无 故 
障 时 间 需 要 着 重 在 状态 V 而 不 是 状态 W 进行 预测 的 结论 。 同 时 ,也 验证 了 本 章 提出 的 可 
生存 性 评估 机 制 对 受 攻击 无 线 传感器 网 络 可 生存 性 评估 的 有 效 性 ,从 而 为 设计 高 可 生存 的 
无 线 传感器 网 络 提供 了 理论 基础 。 
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无 线 传感器 网 络 受 攻击 协调 器 节点 的 
防御 响应 博弈 机 制 研究 


在 ZigBee 无 线 传感器 网 络 中 ,协调 器 节点 是 控制 整个 网 络 运行 的 关键 节点 , 它 决 定 着 
网 络 的 协作 通信 性 能 。 恶 意 节点 为 了 耗费 网 络 资源 和 干扰 网 络 运行 ,选择 协调 器 节点 作为 
攻击 目标 ,一 旦 攻击 成 功 将 导致 多 条 通信 路 径 的 源 和 目的 节点 之 间 的 一 轮 通 信 失 败 。 协 调 
器 节点 选择 技术 不 仅 要 考虑 数据 包 分 发 延迟 .网络 生命 期 等 因素 ,而 且 还 要 考虑 网 络 攻击 防 
御 策略 。 在 本 章 中 ,为 了 最 小 化 从 源 到 目的 节点 的 数据 包 分 发 平均 跳 数 并 且 延 长 网 络 生命 
期 ,提出 了 基于 博弈 论 和 模糊 逻辑 的 协调 器 节点 选择 算法 。 在 此 算法 中 ,首先 使 用 随机 博弈 
对 攻击 进行 动态 响应 ,然后 通过 模糊 多 辑 选 择 通信 质量 较 好 的 传感器 节点 作为 协调 器 节点 ， 
最 终 提高 网 络 的 服务 质量 和 安全 性 。 


7.1 引言 


在 环境 监控 中 ,建筑 物 监控 [9 和 智能 家 庭 C5 等 应 用 领域 ,ZigBee 无 线 传感器 网 络 的 
安全 性 和 服务 质量 (QoS) 影 响 着 其 在 各 种 应 用 中 的 数据 分 发 性 能 。 传 感 数 据 的 传输 总 是 面 
临 许多 的 恶意 攻击 9 ,为 了 使 其 更 加 安全 ,已 提出 了 多 种 安全 协议 解决 对 应 的 网 络 安全 问 
HO ,这 些 协议 包括 802. 1X 端口 访问 控制 协议 .IP Zee IMAGE, GER REE AS EE 
的 网 络 服务 应 用 ,保证 QoS 始终 是 一 个 关键 因素 , 它 包 括 传输 延迟 、 网 络 吞 吐 量 和 数据 丢 包 

ZigBee 无 线 传感器 网 络 由 协调 器 节点 和 终端 节点 组 成 。 网 络 拓扑 一 般 为 标准 的 簇 树 ， 
树 中 的 节点 与 协调 器 节点 相连 ,从 树 根 协调 器 节点 到 叶 节 点 构成 父子 节点 关系 ,能 够 彼此 协 
作 并 提供 有 效 和 高 效 的 数据 分 发 服务 。 为 了 获得 较 高 的 数据 分 发 性 能 , 传 感 服务 节点 对 
QoS 和 安全 有 一 定 的 需求 。 在 不 同 的 环境 和 时 间 点 ,要 使 有 限 的 网 络 资源 同时 满足 安全 性 
和 QoS 需求 是 不 现实 的 。 对 于 提高 安全 性 的 组 合 服务 ,仅仅 考虑 传输 成 本 而 不 考虑 协调 器 
节点 的 攻击 也 是 不 够 的 。 为 了 延长 网 络 生命 期 ,避免 由 于 攻击 而 造成 的 单 点 失败 , 需 以 分 布 
的 方式 ,基于 协调 器 节点 选择 的 方法 进行 服务 组 合 。 其 中 协调 器 节点 将 主动 接收 传感器 节 
点 的 数据 ,然而 , 当 协 调 器 节点 不 在 可 信 状 态 时 ,数据 接收 率 将 变 小 ,QoS 将 变 低 。 因 此 ,为 
了 提高 QoS, 可 使 用 多 个 传感器 节点 共享 可 靠 协调 器 节点 的 方法 ,使 得 传 感 数据 的 传输 成 
本 减少 , 即 多 个 传感器 节点 形成 一 个 共享 协调 器 节点 的 联盟 。 当 同一 联盟 的 协调 器 节点 未 
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受 攻击 且 处 于 可 靠 状态 时 ,每 个 传感器 节点 能 够 访问 协调 器 节点 ; 反之 ,协调 器 节点 状态 由 
正常 转换 为 失败 , 变 得 无 法 访问 。 此 时 ,为 了 可 以 在 联盟 中 正常 地 分 发 数据 , 需 使 用 处 理 协 
调 器 节点 失败 的 容错 机 制 来 选择 新 的 协调 器 节点 。 在 选择 时 应 考虑 以 下 两 方面 问题 : 

(1) 为 了 最 小 化 能 量 成 本 ,如 何 形成 一 个 被 联盟 可 靠 共 享 的 协调 器 节点 ? 

(2) 在 满足 QoS 需求 的 前 提 下 如 何 防御 攻击 者 ? 

为 了 解决 这 两 个 问题 ,本 章 基 于 博弈 论 提 出 了 协调 器 节点 选择 机 制 ,实现 针对 恶意 节点 攻击 
的 动态 防御 。 其 中 ,随机 博弈 被 用 于 对 攻击 进行 动态 响应 ,演化 博弈 被 用 于 选择 协调 器 节点 。 

在 扩展 作者 前 期 工作 5 的 基础 上 ,本 章 的 工作 主要 包括 以 下 内 容 : 

(1) 针对 协调 器 节点 的 攻击 ,防御 者 能 主动 选择 可 靠 的 协调 器 节点 来 最 小 化 网 络 能 量 
损失 ,实现 主动 防御 机 制 。 

(2) 将 对 网 络 协调 器 节点 的 攻击 防御 问题 形式 化 为 一 个 2-player 零 和 博弈 ,其 中 的 收 
益 为 ZigBee 无 线 传感器 网 络 的 网 络 效用 。 

(3) 运用 演化 博弈 分 析 防 御 策略 的 响应 过 程 , 其 中 ,网 络 中 的 节点 作为 一 个 博弈 参与 
者 ,来 自 于 不 同 邻 居 节 点 的 局 部 组 合 估计 信息 作为 协调 器 节点 选择 的 依据 。 

(4) 使 用 模糊 逻辑 为 协调 器 节点 选择 提出 了 一 个 新 的 状态 估计 算法 。 使 用 演化 博弈 和 
随机 博弈 为 协调 器 节点 的 攻击 防御 得 到 了 相应 的 混合 策略 解 ,从 而 实现 最 大 化 博弈 参与 者 
收益 的 目的 。 

本 章 其 余 章节 安排 如 下 : 7. 2 节 介绍 相关 工作 ; 7. 3 节 描 述 系统 模型 ; 7. 4 节 提 出 基于 
演化 博弈 和 随机 博弈 的 动态 攻击 响应 和 协调 器 节点 选择 策略 ; 7. 5 实现 数值 仿真 ; 7. 6 节 
给 出 本 章 小 结 。 

本 章 涉及 的 符号 含义 如 下 : 

S 表示 由 协调 器 节点 管理 的 传感器 节点 组 合 。 

x[ 可 表示 联盟 传感器 节点 。 

av, 表示 联盟 传感器 节点 [如 的 可 用 性 。 

avx 表示 整个 联盟 M 的 可 用 性 。 

pu 表示 使 用 每 个 传感器 节点 时 产生 的 费用 。 

cm(5) 表 示 联 盟 M 的 成 本 。 

ca 表示 节点 s[ 门 加 入 联盟 的 成 本 。 

hi 表示 从 联盟 节点 [局 到 协调 器 节点 的 平均 跳 数 。 

EE. 表示 接收 单个 数据 包 的 能 量 成 本 。 

Et 表 示 发 送 单个 数据 包 的 能 量 成 本 。 

vu GO AER ERI M 的 传感器 节点 组 合成 本 。 


G 表 示 协 调 器 节点 攻击 响应 随机 博弈 模型 。 

N 表示 博弈 参与 者 集合 。 

Z 表示 状态 空间 。 

{A kE N} 表 示 参 与 者 采取 的 行动 集合 。 

al 表示 协调 器 节点 状态 从 NormalState 到 HackedState 状态 的 攻击 行动 。 
ry 表示 攻击 者 在 NormalState 状态 实施 的 攻击 行动 。 

dz 表示 攻击 行动 a. 被 防御 者 defender 成 功 检测 。 
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D: 表示 攻击 行动 未 被 防御 者 defender 成 功 检测 。 

{ue kE N} 表 示 参 与 者 有 的 效用 函数 。 

uz (az ,a-2) 表 示 防 御 行 动 所 获得 的 期 望 收益 。 

az 表示 防御 者 defender 采取 的 防御 行动 。 

4a-: 表 示 攻 击 者 attacker 采取 的 攻击 行动 。 

Ai 表示 攻击 者 attacker 的 行动 集合 。 

A: 表示 防御 者 defender 的 行动 集合 。 

b (a) 表示 防御 者 defender 在 集合 A: 中 采取 防御 行动 的 概率 。 
us (4) 表示 防御 者 defender 在 集合 Az 中 采取 防御 行动 后 ,成 功 检 测 攻击 获得 的 收益 。 
rz 表示 联盟 节点 s[ 门 可 用 资源 的 损失 率 。 

ri 表示 联盟 节点 [i 防御 攻击 的 容 侵 性 。 

ci yi 分 别 表 示 分 配给 防御 者 defender 和 攻击 者 attacker 的 资源 。 
m 表示 联盟 节点 s[ 疏 可 用 资源 的 线性 和 非 线 性 损失 率 。 

a; 表示 防御 者 defender 保护 协调 节点 的 困难 程度 。 

tu(s) 表 示 联 盟 的 可 用 资源 的 损失 率 。 

vu(s) 表 示 在 考虑 联盟 可 用 资源 损失 率 之 后 的 联盟 M 的 传感器 节点 组 合成 本 。 
d 表示 协调 器 节点 的 度 。 

Aise+l 表 示 协 调 器 节点 配置 更 新 规则 的 一 般 形 式 。 

g$(，。) 表 示 传 感 器 节点 的 角色 配置 函数 。 

Ohj RIRE ZA 1 配置 联盟 的 协调 器 节点 j 的 角色 。 
Biu+i 表 示 一 系列 与 传感器 网 络 特定 应 用 相关 的 线性 组 合 规则 。 
0 表示 一 个 种 群 中 各 个 体 可 选择 的 动作 组 成 的 策略 空间 。 

nn 表示 联盟 中 传感器 节点 的 个 数 。 

U 表示 演化 博弈 中 的 效用 和 矩阵 。 

Xs 表示 演化 博弈 矩阵 中 策略 i 对 于 策略 7 的 收益 。 

pi (1) RAB TENT Al t 选择 策略 i 的 个 体 比例 。 

方 (0 表示 在 时 刻 上 策略 ; 的 自 适应 度 。 

w(t) 表 示 整 个 种 群 在 时 刻 1 的 平均 自 适 应 度 。 

2 表示 协调 器 节点 选择 博弈 。 

x 表示 参与 者 的 策略 空间 集合 。 

m 表示 防御 者 defender 可 采取 的 策略 空间 。 

AC 表示 可 选 协调 器 节点 规则 。 

TC 表示 临时 协调 器 节点 规则 。 

TO 表示 临时 普通 节点 。 

dac FAR fili H] AC 规则 来 配置 节点 的 角色 。 

Pre FAB (EA TC 规则 来 配置 节点 的 角色 。 

gro 表示 配置 节点 的 角色 为 普通 节点 。 

m 表示 攻击 者 attacker 采取 的 策略 空间 。 

P 表示 联盟 M 的 传感器 节点 组 合 收益 。 
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了 表示 参与 者 的 自 适应 度 。 

A 表示 选择 新 的 协调 器 节点 的 密度 参数 。 

P; 表示 协调 器 节点 选择 它 的 邻居 节点 7 并 配置 其 为 一 个 协调 器 节点 的 概率 。 
hèt Be fl FA AC 规则 配置 更 新 协调 器 节点 。 

hirn KRIE TC 规则 配置 更 新 协调 器 节点 。 

GBac(ht) 表 示 在 时 刻 t 邻居 节点 j 被 配置 为 可 选 协 调 器 节点 的 概率 。 
Pre (hj) BAR TEM Al t 邻居 节点 7 被 配置 为 临时 协调 器 节点 的 概率 。 
Pro Cus) ER TEE Za] t 原 协调 器 节点 & 被 配置 为 普通 节点 的 概率 。 
M 表示 协调 器 节点 的 个 数 。 

ca*( 让 表示 协调 器 节点 i 配置 为 AC 的 成 本 函数 。 

co (局 表示 协调 器 节点 i 配置 为 TC 的 成 本 函数 。 

ca^ (让 表示 协调 器 节点 i 配置 为 TO 的 成 本 函数 。 

cs(。) 表 示 配 置 时 消耗 传感器 节点 的 能 量 成 本 。 

ro 表示 具有 M 个 协调 器 的 传感器 节点 联盟 的 配置 性 能 。 

w 表示 权重 。 

Q(，) 表 示 演 化 状态 的 配置 性 能 函数 。 

w 表示 学 习 率 参数 。 

© RM EY KBR, 

< 表示 打折 因子 。 

Z, 表示 在 时 刻 : 协调 器 节点 选择 博弈 的 配置 更 新 状态 。 

a, 表示 在 时 刻 : 协调 器 节点 选择 和 传感器 节点 配置 的 行动 。 

x 表示 协调 器 节点 的 可 靠 状态 等 级 。 

Co 表示 协调 器 节点 的 信道 占用 情况 。 

Eo 表示 协调 器 节点 的 剩余 能 量 。 

O(X) 表 示 协 调 器 节点 的 选择 等 级 。 

ya (ZX) 表示 模糊 集 的 成 员 的 隶属 度 函 数 。 

e 表示 模糊 成 员 均 值 。 

o 表示 偏 移 标 准 差 。 

pA 表示 反 模 糊 化 输出 。 

n EFE (EL RS c 

Zi 表示 传感器 节点 的 信道 和 能 量 的 采样 值 。 

pa Ge RAR x: 采样 的 隶属 函数 值 。 

PORREN A 1 传感器 节点 i 被 选择 为 协调 器 节点 的 概率 。 

Dia, ORRERA t 传感器 节点 被 选择 为 协调 器 节点 并 复制 策略 和 配置 更 新 规则 的 概率 。 


7.2 相关 工作 


ZigBee 无 线 传感器 网 络 安 全 和 保证 QoS 相 结合 的 无 线 传感器 网 络 部 署 和 管理 是 目前 
较为 活跃 的 研究 领域 。 由 于 ZigBee 无 线 传感器 网 络 数据 传输 受 能 量 约束 ,因此 如 何 将 数据 


102 


| 博 蛮 论 与 无 线 传感器 网 络 安全 


包 以 能 量 高 效 的 方式 路 由 到 目标 节点 ,并 延长 网 络 生命 期 是 当前 面临 的 一 个 挑战 问题 "9 。 
大 量 的 文献 已 研究 了 ZigBee 无 线 传感器 网 络 中 的 路 由 协议 E 5 , 其 中 ,分 层 协议 4g 
SPAR T FERRO 。 在 文献 [372] 中 还 研究 了 单个 数据 包 的 路 由 跳 数 和 网 络 能 量 。 
然而 ,这 些 协议 未 考虑 协调 器 节点 受到 恶意 节点 攻击 时 的 防御 策略 。 

ZigBee 无 线 传感器 网 络 的 安全 问题 一 直 备 受 关注 。 通 常 在 无 线 通信 网 络 中 ,应 用 高 效 
的 基于 散 列 链 的 轻 量 级 认证 协议 可 以 防御 针对 中 继 节点 的 攻击 ,典型 的 协议 有 计时 流 损 失 
容错 认证 协议 ,其 实质 是 一 个 基于 宽松 时 间 同 步 的 广播 认证 协议 中 。Law 等 人 3 阐述 了 
如 何 使 用 干扰 实现 对 网 络 链接 层 的 攻击 。Xu 等 人 中 通过 对 攻击 和 防御 的 测试 研究 实现 
了 对 传感器 网 络 的 攻击 ,他 们 提出 的 干扰 攻击 模型 包括 恒定 干扰 、 欺 骗 性 干扰 、 随 机 干扰 和 
反应 式 干 扰 。Yao 等 人 中 为 无 线 传感器 网 络 安全 提出 了 一 个 信任 管理 机 制 , 它 实际 上 是 一 
个 安全 路 由 协议 。 在 这 个 安全 路 由 协议 中 ,每 个 节点 使 用 参数 评估 邻居 节点 。Aivaloglou 
和 Gritzalis" 沁 提出 了 基于 证 书 和 行为 评估 的 混合 信任 /信誉 管理 协议 。Gabrielli 4 A 077 
分 析 了 典型 拓扑 协议 PEAS, ASCENT 和 CCP 的 安全 漏洞 ,并 重新 设计 了 相应 的 安全 拓扑 
协议 。Bao 等 人 中 结合 社会 网 络 属性 等 多 维 的 信任 属性 来 评估 每 个 传感器 节点 的 信任 度 。 
Zonouz 等 人 "J 使 用 博弈 论 把 对 攻击 者 的 防御 模型 化 为 两 个 参与 者 的 Stackelberg 随机 博 
弈 ,并 且 使 用 模糊 逻辑 推理 计算 网 络 层 安全 测量 值 。 

不 同 的 ZigBee 无 线 传感器 网 络 拓扑 对 其 安全 性 有 重要 影响 。 除 了 干扰 攻击 外 ,ZigBee 
无 线 传感器 网 络 主要 还 有 三 类 攻击 : 第 一 类 是 针对 ZigBee 组 件 和 配置 的 漏洞 攻击 ; 第 二 类 
是 窃听 ZigBee 网 络 中 加 密 或 未 加 密 的 数据 ,从 而 获得 与 用 户 相关 的 敏感 性 信息 ; 第 三 类 是 
重 传 捕获 的 数据 。 对 于 第 一 类 攻击 ,可 以 通过 减少 网 络 配置 ,提高 设备 发 现 协议 的 认证 效率 
来 降低 漏洞 的 泄露 机 会 。 对 于 第 二 类 攻击 .可 通过 提高 数据 传输 的 保密 性 来 应 对 。 第 三 类 
攻击 主要 是 使 用 重 传 方式 消耗 节点 的 能 量 ,导致 数据 传输 链接 失败 ,因此 ,针对 此 类 攻击 的 
一 般 防御 方案 是 ,不 论 受到 攻击 与 否 ,配置 ZigBee 节点 为 Sleep-wake 周期 性 工作 方式 ,使 
得 其 在 完成 传输 任务 前 ,能 量 耗 尽情 况 尽量 不 会 发 生 ""3。Patel 等 人 中 针对 传统 的 MDA- 
ML 方法 导致 ZigBee 设备 认证 性 能 降低 的 问题 ,提出 非 参 数 随机 森林 (Non-parametric 
Random Forest) 和 多 层次 演算 分 类 器 (Multi-Class AdaBoost) 算 法 来 提高 ZigBee 设备 的 认 
证 性 能 。 通 常 ,ZigBee 安全 协议 在 发 送 数据 前 先 使 用 高 级 加 密 的 标准 计数 器 模式 加 密 数 
据 , 这 种 模式 中 过 多 的 异 或 操作 消耗 了 时 间 , 减 少 了 数据 传输 的 实时 性 。 针 对 该 问题 ， 
Bakhache 等 人 中 为 了 提高 加 密 算法 的 健壮 性 和 实时 性 ,利用 混沌 函数 高 效 的 加 密 性 能 , 提 
出 了 快速 混沌 加 密 算法 (Robust and Fast Chaotic Encryption Algorithm) 。 典 型 的 ZigBee 
无 线 传 感 器 网 络 密 钥 管理 机 制 有 椭圆 曲线 Diffie-Hellman(ECDH) 机 制 ,但 它 并 不 能 抵御 中 
间 人 攻击 ,在 文献 [381] 中 ,Choi 等 人 针对 中 间 人 攻击 问题 ,结合 ECDH 和 SubMAC( Sub 
Message Authentication Code) 管 理 机 制 , 增 强 了 ZigBee 无 线 传感器 网 络 中 密 钥 的 管理 。 由 
于 ZigBee 无 线 传感器 网 络 具 有 低 功 耗 约 东 .在 众多 的 加 密 算法 中 ,并 不 是 所 有 的 算法 都 适 
用 于 ZigBee 无 线 传感器 网 络 的 数据 加 密 ,Rosli 等 人 2 在 比较 分 析 了 各 种 加 密 算法 的 性 能 
后 ,得 出 IBE-Trust 协议 比 RSA-1024 消耗 更 少 能 量 的 结论 。Xnu BAS (lc H al AS ds H 
密 钥 的 同步 更 新 技术 ,设计 了 wz-lcp 协议 来 满足 智能 家 庭 应 用 中 的 低 功 耗 和 高 安全 性 需 
求 。 具 有 128 位 加 密 密 钥 的 ZigBee 无 线 传感器 网 络 , 也 容易 被 攻击 者 截获 ,需要 跨 层 设计 
其 安全 性 ,Ramsey AIAH RF 物理 层 特性 ,设计 了 PHY-MAC-NWK 跨 层 安全 框架 。 
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Jokar 等 人 中 通过 在 家 庭 网 络 中 部 署 欺 骗 探 测 模块 和 在 网 络 节点 上 部 署 阻止 模块 ,根据 接 
收 到 帧 中 的 信号 强度 过 滤 恶 意 帧 。Tseng 等 人 ”使 用 随机 博弈 对 异 构 网 络 的 网 络 认证 问 
题 建 立 了 相应 的 模型 。Jiang 等 人 "使 用 演化 博弈 模型 分 析 信 息 的 扩散 过 程 和 自 适应 网 络 
的 滤波 问题 。 

与 上 述 相关 工作 相 比 , 本 章 使 用 演化 博弈 和 随机 博弈 建立 ZigBee 无 线 传感器 网 络 安全 
防御 模型 , 当 协调 器 节点 受到 攻击 时 ,给 出 相应 的 响应 策略 。 与 文献 [386] 相 比 , 本 章 使 用 博 
弈 论 解决 了 ZigBee 无 线 传感器 网 络 协调 器 节点 受 攻击 响应 问题 。 与 文献 [387] 相 比 , 本 章 
主要 针对 协调 器 节点 受到 攻击 时 ,使 用 演化 博弈 模型 分 析 协 调 器 节点 选择 问题 ,并 且 结 合 模 
糊 理论 ,运用 随机 演化 博弈 和 模糊 推理 给 出 在 安全 和 QoS 约束 下 的 基于 协调 器 节点 选择 的 
协作 防御 恶意 行为 的 方法 。 


7.3 系统 模型 


7.3.1 ZigBee 无 线 传感器 网 络 的 功能 性 和 QoS 


传感器 节点 提供 的 功能 包括 数据 包 接收 和 转发 操作 。 当 数据 包 到 达 传 感 器 节点 后 , 传 
感 器 节点 接收 该 数据 包 再 转发 给 协调 器 节点 ,然后 网 络 中 的 传感器 节点 聚合 后 提供 组 合 服 
务 给 终端 节点 。 与 具有 丰富 带宽 和 较 高 可 用 性 的 Web 服务 提供 者 不 同 , 传 感 器 网 络 有 很 高 
的 动态 性 。 由 于 传感器 节点 容易 失效 ,通信 链接 容易 断 开 ,使 得 无 线 通信 容量 受到 限制 。 因 
此 ,ZigBee 无 线 传感器 网 络 的 稳定 运行 包含 两 个 QoS 属性 , 即 从 终端 节点 到 协调 器 节点 的 
平均 跳 数 和 能 量 成 本 。 其 中 , 跳 数 定义 为 覆盖 了 源 节点 到 协调 器 节点 总 的 路 径 长 度 ,能 量 成 
本 定义 为 ZigBee 无 线 传感器 网 络 消费 者 偿付 接收 和 转发 数据 包 操 作 的 费用 。 

这 里 利用 演化 联盟 博弈 分 析 协 调 器 节点 的 选择 过 程 ,其 拓扑 结构 如 图 7-1 所 示 。 在 
图 7-1 中 ,得 联 盟 能 够 通过 协调 器 节点 与 其 他 联盟 通信 。 每 个 联盟 包含 协调 器 节点 和 多 个 
传感器 节点 等 联盟 成 员 。 协 调 器 节点 负责 接收 和 转发 数据 包 并 且 管 理 联盟 成 员 间 的 合作 ， 
它 不 但 可 以 请 求 或 被 邀请 加 入 联盟 ,也 可 以 退出 联盟 。 


Qo Hase. à 


/ 


(O) \ `N 
图 7-1 协调 器 节点 选择 的 联盟 博弈 拓扑 


在 一 个 联盟 中 ,协调 器 节点 是 联盟 的 控制 器 , 它 负责 初始 化 网 络 设置 ,选择 合适 的 通信 
信道 。 通 过 对 联盟 内 可 用 信道 的 能 量 峰 值 来 评估 信道 间 的 干扰 。 如 果 一 个 节点 是 可 用 的 ， 
将 开始 和 协调 器 节点 交互 数据 包 形成 联盟 ,同时 ,协调 器 节点 将 选择 其 作为 自己 的 联盟 成 
员 。 合 作 的 联盟 是 由 协调 器 节点 管理 的 传感器 节点 组 合 , 记 为 SSE], esia] ARR 
有 个 联盟 成 员 。 一旦 协调 器 节点 接收 到 一 个 传感器 节点 的 数据 发 送 请 求 后 , 它 将 转发 给 
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联盟 成 员 节 点 。 如 果 s[1] 节 点 是 可 用 的 ,协调 器 节点 将 发 送 数 据 给 s[1]; 否则 将 发 送 给 
DEA ,直到 数据 被 转发 到 目标 节点 。 假 设 联盟 传感器 节点 silha HEE av;, 则 整个 
联盟 M 的 可 用 性 为 


sc —1- T= 1-15 

由 于 联盟 是 一 个 组 合 传感器 网 络 ,使 用 每 个 传感器 节点 时 将 产生 的 费用 记 为 pw。 组 合 
传感器 网 络 的 成 本 决定 于 平均 跳 数 、 能 量 成 本 ,因此 ,联盟 M 的 成 本 为 

cm(s) = Ya — avs) cst (7-2) 


式 中 ,cr 为 节点 SLE LIMA REA AS. hs 为 从 联盟 节点 [可 到 协调 器 节点 的 平均 跳 数 ， 
则 单个 数据 包 花 费 的 能 量 成 本 为 
ep] = CE, + Ep X hi (7-3) 
式 中 ,E, 和 Et 分 别 为 接收 和 发 送 单个 数据 包 的 能 量 成 本 。 所 以 ,联盟 M 的 传感器 节点 组 合 
成 本 为 
um(s) = pm X avm — cu(s) (7-4) 


7.3.2. 协调 器 节点 攻击 响应 的 随机 博弈 模型 


这 里 将 协调 器 节点 攻击 问题 看 作 是 一 个 非 合 作 博 弈 问题 。 其 中 ,恶意 节点 为 攻击 者 , 协 
调 器 节点 为 防御 者 ,恶意 节点 攻击 的 结果 是 使 得 协调 器 节点 工作 状态 发 生变 化 。 协 调 器 节 
点 有 两 个 内 部 运行 状态 , 即 NormalState(NS) , HackedState( HS) 。 攻 击 者 通过 改变 其 内 部 
运行 状态 使 其 失去 对 联盟 的 控制 能 力 ,博弈 模型 表示 如 下 : 
定义 7-1 协调 器 节点 攻击 响应 的 随机 博弈 模型 是 一 个 四 元 组 , 即 
G=(N,Z,{Ar |k € NI Gu |k € ND (7-5) 
式 中 ,N 为 博弈 参与 者 集合 ,N= 二 11,2) — lattacker. defender}; Z 为 状态 空间 ,Z= {NS， 
HS); (A |kE N) 为 参与 者 采取 的 行动 集合 ; AS Fair) ,其 中 表示 使 协调 器 节点 状 
态 从 NormalState 改变 为 HackedState 状态 的 攻击 行动 ; ri 表示 攻击 者 在 NormalState 状 
态 实 施 的 攻击 行动 ; Ae = (d2: D2) KEP de 表示 攻击 行动 ai 被 防御 者 成 功 检测 ,名 , 表示 
攻击 行动 未 被 防御 者 defender 成 功 检测 ; (uu |kRE N) 为 参与 者 有 的 效 用 函数 。 
防御 者 defender 的 目标 是 通过 协调 器 节点 选择 调度 机 制 最 大 化 延长 网 络 的 生命 期 ,而 
恶意 的 攻击 者 attacker 通过 干扰 策略 降低 网 络 生命 期 。 因 此 ,防御 者 defender 和 攻击 者 
attacker 有 相反 的 目标 ,其 交互 过 程 可 以 动态 模型 化 为 一 个 非 合 作 零 和 博弈 。 在 协调 器 节 
点 选择 调度 机 制 中 ,协调 器 节点 作为 一 个 理性 的 博弈 防御 者 , 它 的 目标 是 最 大 化 网 络 吞 吐 
量 、 降 低 数据 包 传输 的 平均 跳 数 和 能 量 成 本 。 因 此 ,定义 防御 者 defender 的 效用 函数 为 防 
御 行 动 所 获得 的 期 望 收 益 , 即 
Uz (az ya-_z) = > pl@uz(a) (7-6) 


“eA, 
式 中 ,as 为 防御 者 defender 采用 的 防御 行动 ; a-: 为 攻击 者 attacker 采取 的 攻击 行动 ; pla) 
为 防御 者 defender 在 其 行动 空间 A 中 采取 防御 行动 的 概率 ; uz(a) 为 防御 者 defender 在 其 
行动 空间 A; 中 采取 防御 行动 后 ,成 功 检测 攻击 获得 的 收益 。 防 御 者 defender 在 其 行动 空 
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间 Az 中 ,为 最 大 化 防御 收益 而 选择 最 优 响 应 行动 。 因 此 ,在 博弈 中 防御 者 defender 的 决 
策 为 


(G) :max uz (a2 ,a-2) (7-7) 


7.3.3 基于 演化 博弈 的 最 优 响应 策略 


定义 协调 器 节点 选择 的 联盟 博弈 拓扑 为 一 个 有 向 图 Gm CN ED ,其 中 N 是 节点 集合 ,已 
是 边 集 。 假 设 每 个 节点 初始 的 资源 可 用 。 令 ri 是 联盟 节点 s[ 门 防御 攻击 的 容 侵 性 ,x; 和 > 
分 别 是 分 配给 防御 者 defender 和 攻击 者 attacker 的 资源 。 根 据 竞 争 模 型 9 当 思 想 ,联盟 节 
点 s[ 门 的 资源 可 用 性 的 损失 率 为 
CyO" 
ai Gi + x)" + Cy)" 
式 中 ,mE (0,1] 为 联盟 节点 sLi VE UT HO ER R HE PE ZR PERE SE a: 为 防御 者 defender 
保护 协调 器 节点 的 困难 程度 。 当 a:€ (0,1) 时 ,防御 者 defender 比 攻击 者 attacker 分 配 更 多 
的 资源 来 缓解 攻击 效应 。 当 0:71 时 ,意味 着 防御 者 defender 可 以 成 功 地 检测 或 缓解 攻击 。 
这 样 ,可 重 写 联盟 M 的 传感器 节点 组 合成 本 为 
v'uls) = pu X avm — cu G) — zu G) (7-9) 


(0-8) 


ula) = 


式 中 ,rw(s) 为 联盟 M 的 可 用 资源 损失 率 , 定 义 为 Dula) 于 防御 者 defender 而 言 , 它 的 


目标 是 使 用 资源 x; 来 最 大 化 vw(s) ,并 且 通 过 选择 协调 器 节点 最 大 化 网 络 的 QOS, Wea A 
attacker 的 目标 是 使 用 资源 y: 攻击 关键 的 协调 器 节点 来 最 小 化 ww(s)。 从 式 (7-9) 中 可 以 看 
出 ,如 果 cms) 减少 , 则 ot GO 增 大 。 同 时 还 注意 到 ,cx(s) 的 值 依 赖 于 hi、E, 和 Er, 当 这 3 个 
变量 中 至 少 有 一 个 变量 减少 时 ,cw(s) 才 减 少 .其 中 访 能 够 通过 演化 选择 协调 器 节点 位 置 和 
可 靠 状 态 获得 .对 于 具有 度 为 di 的 协调 器 节点 ,联盟 集合 可 以 表示 为 {i,…,ia,) ,这 样 协 调 
器 节点 配置 更 新 规则 的 一 般 形式 可 写 为 


d, 


hia = 9, >) Bua G DOG, (7-10) 


121 j=1 


式 中 ,@(。) 为 传感器 节点 的 角色 配置 函数 ; Ch; TERTA] 配置 联盟 7 的 协调 器 节点 j 
的 角色 ; Bi 为 一 系列 与 传感器 网 络 特定 应 用 相关 的 线性 组 合 规则 。 

演化 博弈 论 (EGT) 来 源 于 生态 生物 学 的 研究 9 , 它 主 要 强调 个 体 策 略 的 动态 性 和 稳 
定性 。 记 O= (01 ,0 ,… ,0 } 为 一 个 种 群 中 各 个 体 可 选择 的 动作 组 成 的 策略 空间 。 效 用 和 矩阵 
为 ,用 一 个 kXk 的 矩阵 表示 ,其 中 矩阵 的 元 素 yj 表示 策略 i 对 于 策略 7 的 收益 。 在 时 刻 1 
选择 策略 i 的 个 体 比 例 用 pCO) KAR. H 0— p; CO —1.i€ {1,…,k)。 在 时 刻 1 策 略 i 的 自 
适应 度 为 


FOD = Dory (7-11) 
j=l 
整个 种 群 在 时 刻 上 的 平均 自 适应 度 为 
$ 
7(D = DADO (7-12) 


每 个 参与 者 的 策略 更 新 方程 为 
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bia D a oe (7-13) 


实际 上 ,演化 博弈 中 的 策略 更 新 过 程 类 似 于 协调 器 节点 位 置 选择 及 配置 更 新 过 程 。 因 
此 ,定义 协调 器 节点 选择 博弈 如 下 。 

定义 7-2 协调 器 节点 选择 博弈 是 一 个 三 元 组 S =N’ ,x,P) ,其 中 : 

e N'— lattacker. defender) 表示 参与 者 集合 。 

。 r= {mm RRA H H HRS EE m = (AC, TC, Dac Pre, Dro) KIR DWA 

defender 可 采取 的 策略 空间 ,其 中 , AC 表示 可 选 协调 器 节点 规则 ,TC 表示 临时 协 
调 器 节点 规则 ,@Ac 表 示 使 用 AC 规则 来 配置 节点 的 角色 ,Brc 表 示 使 用 TC 规则 来 
配置 节点 的 角色 ,Gro 表 示 配 置 节点 的 角色 为 普通 节点 ,xs 表示 攻击 者 attacker 采取 
的 策略 空间 。 

。 了 二 vu(s) 表 示 联 盟 M 的 传感器 节点 组 合成 本 。 

在 EGT 中 ,每 个 协调 器 节点 代表 一 个 防御 参与 者 ,参与 者 的 自 适应 度 广 通过 与 局 部 的 
邻接 参与 者 交互 来 决定 , 它 以 分 布 式 自 适应 选择 协调 器 节点 的 方式 来 更 新 协调 器 节点 的 配 
置 ,其 表达 式 为 

f = (1—Avu(s) +Avu(s) (7-14) 
式 中 ,4 为 选择 新 的 协调 器 节点 的 密度 参数 。 当 4 一 0 时 表示 弱 的 干扰 攻击 ,重新 选择 协调 
器 节点 的 概率 较 小 ; A51 表示 强 选择 ,重新 选择 协调 器 节点 的 概率 较 大 。 接 下 来 ,使 用 规则 
来 描述 协调 器 节点 选择 的 动态 性 。 

规则 7-1 可 选 协调 器 节点 更 新 规则 (AC 规则 )。 联 盟 中 的 协调 器 节点 放弃 当前 作为 
协调 器 节点 的 角色 ,随后 ,再 以 一 定 概率 选择 它 的 邻居 节点 作为 协调 器 节点 ,之 后 ,邻居 节点 
复制 其 策略 并 配置 为 协调 器 节点 ,具体 过 程 如 图 7-2 所 示 。 


JB. is - i 2 
G. ~~~ D Q. P i79 
‘ee \ AC "uw \ 
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图 7-2 ”可 选 协调 器 节点 更 新 规则 


规则 7-2 ”临时 协调 器 节点 更 新 规则 (TC 规则 )。 当 邻居 节点 采用 该 规则 时 ,将 被 配置 
为 临时 协调 器 节点 ,而 原 协调 器 节点 被 配置 为 一 个 临时 的 普通 节点 TO ( Temporary 
Ordinary) 。 当 干扰 攻击 变 弱 时 ,邻居 节点 和 原 协调 器 节点 恢复 其 原来 的 角色 ,这 个 过 程 如 
图 7-3 所 示 。 

这 两 种 更 新 规则 能 以 自 适 应 的 方式 匹配 协调 器 节点 配置 更 新 算法 。 对 于 可 选 协调 器 节 
点 更 新 规则 ,协调 器 节点 选择 它 的 邻居 节点 7 并 配置 其 为 一 个 协调 器 节点 的 概率 为 


pah -Ł (7-15) 
7 


Mh 
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图 7-3 ”临时 协调 器 节点 更 新 规则 


pL 为 邻居 节点 /被 选 择 成 为 协调 器 节点 的 概率 ; /; 为 邻居 节点 j 的 自 适应 度 ; 
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1/T; 为 邻居 节点 j 复制 协调 器 节点 策略 及 其 配置 的 概率 。 对 于 可 选 协调 器 节点 更 新 规则 , 协 
调 器 节点 配置 更 新 规则 形式 化 表示 为 


ha = |S. E exu) [1 — fia E| D oo (7-16) 
> ae ame 
式 (7-16) 第 一 部 分 表示 邻居 节点 配置 为 一 个 AC 规则 的 概率 ,其 中 ,Bac hju) RIR TERRE al t 
邻居 节点 j 被 配置 为 可 选 协 调 器 节点 的 概率 ; 第 二 部 分 是 联盟 中 余下 所 有 节点 更 新 其 到 目 
标 节点 路 径 的 平均 跳 数 的 概率 ,其 中 ,i€E M\ (7) 表示 联盟 中 余下 的 所 有 节点 。 
对 于 临时 协调 器 节点 更 新 规则 ,协调 器 节点 重新 选择 后 的 配置 更 新 规则 形式 化 表示 为 


ha = IE. Leech) + | A -Hord + 1 Y) go) 
Y» T; PA T; NS Ty |ie Mo 
271 471 q=1 


(7-17) 
3&C1-17) 58 — BB 4 Sos 4B Ji A BOE — ^r Mes SEE D i 39 ABE SHY Drc (hij,,) 表 示 在 
FI ZU) c 邻居 节点 7 被 配置 为 临时 协调 器 节点 的 概率 ; 第 二 部 分 表示 原 协调 器 节点 本 身 配置 
为 一 个 临时 的 普通 节点 的 概率 ,其 中 ,Bro(hi) 表 示 在 时 刻 1 原 协调 器 节点 & 被 配置 为 普通 
节点 的 概率 ; 第 三 部 分 表示 联盟 中 余下 所 有 节点 更 新 其 到 目标 节点 路 径 的 平均 跳 数 的 概 
率 ,其 中 ,i€ M\ (j,k) 表示 联 盟 中 余下 的 所 有 节点 。 
由 于 可 选 协调 器 节点 更 新 规则 和 临时 协调 器 节点 更 新 规则 在 配置 网 络 时 需 消耗 传感器 
节点 的 能 量 成 本 ,因此 ,联盟 M 的 传感器 节点 组 合 的 收益 重 写 为 
UMS) = pam — cu) — tu(s) — cols) (7-18) 
式 中 ,co(，。) 为 配置 时 消耗 传感器 节点 的 能 量 成 本 。 对 于 具有 M 个 协调 器 的 传感器 节点 联 
盟 的 配置 性 能 为 


M 
re = >) (we SG) + A wi) Cg G) + 9G) (7-19) 
fel 


式 中 ,ru 为 权重 , 且 wil. cao CO ABSA RE i 配置 为 AC 的 成 本 函数 ; ca CO LEM a 
节点 i 配置 为 TC 的 成 本 函数 ; c8?( 让 为 协调 器 节点 i 配置 为 TO 的 成 本 函数 。 演 化 状态 的 
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ic HE AE h PR Be QC - ) 测 量 , 这 里 使 用 即时 差分 (Temporal Difference. TD) i: E% QC * ) PR 
数值 。TD 方法 的 基本 思想 是 只 要 观察 到 有 收益 .不必 等 待 输出 最 终 的 收益 ,就 能 够 与 前 一 
状态 的 收益 进行 差分 ,从 而 缩短 了 更 新 时 间 。Q(，。 ) 函数 更 新 表达 式 为 

QZ ar) — QUL aD + ol reca + QZ ai) 一 QCZ ar)] (7-20) 
式 中 ,o 为 学 习 率 ,在 协调 器 节点 受到 攻击 时 ,保证 协调 器 节点 选择 博弈 能 够 收敛 ; 为 打折 
因子 ,在 连续 的 配置 更 新 任务 中 .保证 累积 的 收益 能 够 收敛 ; Ze 为 在 时 刻 : 协调 器 节点 选择 
博弈 的 配置 更 新 状态 ; a 为 在 时 刻 t 协调 器 节点 选择 和 传感器 节点 配置 的 行动 。 


7.4 基于 FQL 增强 学 习 的 协调 器 节点 选择 


7.4.1 模糊 逻辑 


本 节 使 用 Fuzzy-Q 学 习 (FQL) 算 法 来 实现 演化 博弈 决策 (FEGD) 过 程 。 FEGD 方法 考 
虑 协调 器 节点 的 信道 占用 情况 C。 和 剩余 的 能 量 Eo, 它 们 之 间 的 相关 度 用 函数 — CCo 
Eo) 表 示 , 其 中 ,x 表示 协调 器 节点 的 可 靠 状 态 等 级 。 在 FEGD 方法 中 ,输入 参数 为 协调 器 
节点 已 占用 的 信道 Co 和 剩余 的 能 量 E。。 输 入 参数 的 集合 分 别 定义 为 


T(Co) = {Low(LO) , High( HG) } (7-21) 

T(E.) = {Low(LO) .Moderate( ME) . High( HG) } (7-22) 
输出 参数 为 协调 器 节点 的 选择 等 级 ,定义 为 

OQ) = {Low(LO) .Moderate(ME) . High( HG)) (7-23) 


表 7-1 给 出 了 模糊 规则 和 矩阵。 按照 FQL 算法 ,为 演化 博弈 定义 了 包含 有 4 条 规则 的 模 
糊 推理 系统 : 

(D IF C, is HG AND E, is HG THEN y is HG. 

(2) IF Co is HG AND E, is ME THEN y is ME. 

(3) IF Co is LO AND E, is ME THEN y is ME. 

(4) IF C, is LO AND E, is HG THEN x is ME. 


表 7-1 模糊 规则 矩阵 


Co 
LO HG 
Ey 
LO LO LO 
ME ME ME 
HG ME HG 


选用 高 斯 模糊 成 员 函 数 ,定义 模糊 集 的 成 员 的 隶属 度 函 数 为 


ve 
palz) = exp(— 55:8) (7-24) 


式 中 ,z 为 连续 的 信道 占用 情况 和 剩余 的 能 量 采样 值 ; e 为 模糊 成 员 均值 ; o 为 偏 移 标准 差 。 
Apa(z):U 一 [0,1] 表 示 连 续 取 值 的 特征 函数 , 即 隶 属 函 数 。 使 用 重心 法 反 模糊 化 , 反 模 化 的 
结果 为 
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yaa X Ti 
i=l 


Sata) 
式 中 ,n 为 采样 值 的 个 数 ; xz; 为 传感器 节点 的 信道 和 能 量 采样 值 ; pa(zi) 为 x; 采样 的 隶属 
函数 值 。 


7.4.2 随机 学 习 过 程 


使 用 FQL 算法 能 够 推导 出 传感器 节点 的 信道 和 能 量 情况 ,为 协调 器 节点 的 选择 博弈 提 
供 决策 依据 ,但 是 在 博弈 过 程 中 ,攻击 者 的 策略 是 随时 间 变 化 的 ,多 个 参与 者 可 同时 采取 防 
御 行 动 ,通过 分 布 式 的 随机 演化 学 习 算法 (SEL), 使 得 协调 器 节点 的 选择 博弈 达到 纳什 均 
衡 。 为 了 方便 开发 基于 SEL 的 协调 器 节点 选择 的 自 组 织 防御 算法 , 令 混 合 策略 PICO = 
Lpia QD «tt Pirini CO 13 AB TERY A c 传感器 节点 i 被 选择 为 协调 器 节点 的 概率 。 其 中 ， 
Dia, CO ai € {1,2,…,|m|) ,表示 在 时 刻 1 传感器 节点 被 选择 为 协调 器 节点 并 复制 策略 和 
配置 更 新 规则 a;E x 的 概率 。 基 于 SEL 的 协调 器 节点 选择 形成 自 组 织 防御 的 算法 如 算法 
7-1 所 示 。 
算法 7-1 基于 SEL 的 协调 器 节点 选择 形成 自 组 织 防御 的 算法 (SoDSC)。 
1. 初始 化 设置 :一 0 ,传感器 节点 被 选择 为 协调 器 节点 的 概率 pia (= 1/15 
2. 在 时 刻 +, 每 个 参与 者 i 选择 一 个 行动 a;(1) 进 行 防御 。 
3. 联盟 接收 收益 vu GO. 
// 在 联盟 中 的 每 个 传感器 节点 根据 以 下 规则 更 新 被 选择 为 协调 器 节点 的 概率 
. CID=Getcurrent_node(ID) , 
. CRS—Get CoordinatorResourceState( CID) , 
. REPEAT 
IF CRS= HG 
his+i hiss 
Pia, GHL Apia GO F ha ia, - Acv rci — Pia (0). 
//0<0<1 RAF AKA.) RU TE PRL 
//a:i= ACV TC 表示 防御 者 采取 AC 或 TC 规则 配置 时 ,指示 函数 值 为 1; 否则 
// 为 0 


p = (7-25) 


o 0 300 A 


M 
10. | Q(Z.a) — Q(Z,.a,) EI DD (Ge: ch) +E + QUZa a) * lo) 一 
i=] 


Q2) . 


/ / a, — Dac cR Bj ARI AC 规则 配置 时 ,指示 函数 1 .的 值 为 1; 否则 为 0 
1l. ELSEIF CRS= ME 
12. hoa hiso 
13. Pia, G1) 7 piu, 1) FO i441 Cou s acvro — Pia (t) ) o 
14. Q(Z,.a)--Q(,.a;) 
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ta((, 


Qu.) o 


z 


(CO. — wi) G4 ea nN — 
1 


//ai= Ore 人 Bro 表示 邻居 节点 被 配置 为 临时 协调 器 节点 ,并 且 原 协调 器 节点 
// 配 置 为 临时 的 普通 节点 时 ,指示 函数 1 .的 值 为 1; 否则 为 0 
15. ENDIF 
16. UNTIL PAX pie, (1 十 1) 和 QC2,,a:) 的 值 收敛 。 
算法 7-2 Get CoordinatorResourceState( CID) 
.初始 化 Co Eo. 
. RE TC), T(E) ,使 用 式 (7-24) 计 算 pa CCo All ra (Eo)。 
. 使 用 表 7-1 计算 OC). 
.计算 pa COGO) = minl pea CCo) sya (Eo) )。 
. 使 用 式 (7-25) 计 算 反 模 糊 输出 y= /(Co Eo) =pa 。 
. 返回 O(x)。 
在 算法 7-2 中 ,协调 器 节点 可 以 读 取 电 池 能 量 级 别 并 且 使 用 ACK 消息 估计 信道 状况 ， 
使 用 这 些 参数 ,从 单个 协调 器 节点 选择 的 角度 描述 了 基于 模糊 逻辑 的 协调 器 节点 资源 状态 
决策 算法 。 


7.5 实验 


使 用 网 络 仿真 器 NS-2 ,仿真 实现 IEEE 802. 15. 4 物理 层 和 MAC 层 标 准 。 首 先 仿真 了 
动态 防御 和 响应 策略 ,仿真 结果 显示 ,通过 选择 未 被 攻击 的 协调 器 节点 形成 的 新 联盟 增长 了 
网 络 的 吞吐 量 。 然 后 ,验证 了 当 协 调 器 节点 受到 攻击 且 失 效 时 ,使 用 模糊 逻辑 和 演化 博弈 的 
响应 策略 来 配置 IEEE 802. 15. 4/ZigBee 网 络 , 仿 真 结果 显示 ,提出 的 算法 延长 了 网 络 生命 
期 。 仿 真 的 网 络 场景 由 20 个 传感器 节点 组 成 ,随机 地 部 署 在 方形 区 域 。 仿 真 参数 如 表 7-2 


an fF word 2 


所 示 。 
表 7-2 仿真 场景 
$9 Au 值 
Protocols AODV .Mac/802. 15. 4 
Number of Nodes 20 
Simulation Area 50X 50 
Traffic Type cbr. poisson 
Packet Size 70Bytes 
Packets Rate 250k 
Distance 5m,9m,10m,11m,12m 
Simulation time 100s 


NS-2 仿真 器 实现 了 IEEE 802.15. 4 标准 描述 的 Two-way 传播 模型 ,物理 层 中 每 个 数 
据 包 的 接收 功率 应 满足 一 定 的 阔 值 ,在 实验 中 设 定 为 3.24X10-”“W。 仿真 开始 时 随机 地 选 
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择 协调 器 节点 ,通过 变换 协调 器 节点 的 位 置 和 干扰 攻击 点 ,对 IEEE 802. 15. 4 标准 和 本 章 
提出 的 算法 进行 了 重复 实验 。 仿 真 结束 时 ,记录 了 协调 器 节点 受 攻击 时 新 网 络 拓扑 的 吞吐 
量 。 图 7-4 给 出 了 协调 器 节点 受 攻击 时 ,IEEE 802. 15. 4 标准 与 协调 器 节点 选择 算法 获得 
的 吞吐 量变 化 情况 。 图 7-5 给 出 了 协调 器 节点 受 攻击 时 防御 的 时 间 延 迟 情况 。 

300 
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图 7-4 协调 器 节点 被 攻击 时 的 网 络 吞 吐 量 
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图 7-5 协调 器 节点 被 攻击 时 的 防御 延迟 情况 


当 网 络 受到 高 强度 的 干扰 攻击 时 ,通过 博弈 选择 协调 器 节点 ,并 控制 拓扑 来 完成 干扰 攻 
击 的 防御 ,保证 了 受 攻击 网 络 的 吞吐 量 和 延迟 与 IEEE 802. 15. 4 相当。 这 是 由 于 在 面 对 攻 
击 时 ,博弈 选择 算法 使 用 TC 和 AC 规则 选择 协调 器 节点 来 保持 较 高 的 吞吐 量 。 同 时 ,在 源 
节点 和 协调 器 节点 之 间 创 建 了 较 短 的 路 径 ,使 得 数据 传输 的 平均 跳 数 减 小 ,节约 了 能 量 和 减 
少 了 数据 分 发 延迟 。 

在 面 对 干 扰 攻 击 时 协调 器 节点 选择 的 推理 系统 如 图 7-6 和 图 7-7 所 示 。 图 7-6 给 出 了 
协调 器 节点 选择 的 成 员 函 数 曲 线 ,其 中 包含 节点 信道 质量 的 成 员 函 数 曲 线 、 节 点 能 量 状况 的 
成 员 函 数 曲 线 、 选 择 等 级 的 成 员 函 数 曲 线 。 通 过 观察 节点 信道 质量 的 成 员 函 数 曲 线 可 以 看 
出 , 当 节 点 信道 模糊 值 约 为 10 时 ,信道 质量 隶属 值 最 高 ,说 明 此 时 节点 的 信道 质量 最 好 。 当 
节点 信道 模糊 值 约 为 5 时 ,信道 质量 隶属 值 为 中 等 ,说 明 此 时 节点 具有 中 等 的 信道 质量 。 通 
过 观察 节点 能 量 状况 的 成 员 函 数 曲线 可 以 发 现 , 当 节点 能 量 模 糊 值 约 为 0.1 时 ,节点 能 量 较 
低 , 当 节点 能 量 模 糊 值 约 为 10 时 ,节点 能 量 最 高 。 从 选择 等 级 的 成 员 函 数 曲线 可 以 看 出 , 当 
选择 等 级 模糊 值 在 [9. 5 10. 5] 区 间 时 ,节点 被 选择 为 协调 器 节点 的 概率 较 高 ; 当选 择 等 级 
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模糊 值 在 [2 4] 区 间 时 ,节点 被 选择 为 协调 器 节点 的 概率 为 中 ; 当选 择 等 级 模糊 值 在 [0 0. 3] 
区 间 时 ,节点 被 选择 为 协调 器 节点 的 概率 较 低 。 图 7-7 给 出 了 协调 器 节点 选择 模糊 推理 曲 
面 。 当 节点 信道 模糊 值 约 为 10、 节 点 能 量 模 糊 值 约 为 5 时 ,从 模糊 推理 曲面 图 中 可 以 得 到 
节点 的 选择 等 级 模糊 值 约 为 2.1, 由 图 7-6 的 观察 结果 可 以 得 出 节点 被 选择 为 协调 器 节点 的 
概率 为 中 。 


选择 等 级 
Dw O0 - 0 c 


a 


Ld 
图 7-7 协调 器 节点 选择 的 模糊 推理 曲面 


图 7-8 显示 了 协调 器 节点 能 量 对 于 协调 器 节点 选择 级 别 的 影响 ,当下 一 6 时 ,协调 器 节 
点 具有 较 高 的 能 量 ,协调 器 节点 的 选择 级 别 为 最 高 ,当下 一 3 时 ,协调 器 节点 具有 较 低 的 能 
量 ,协调 器 节点 的 选择 级 别 为 最 低 。 从 图 7-9 可 以 看 出 ,通过 选择 协调 器 节点 ,网 络 的 吞吐 
量 呈 增长 趋势 。 在 具有 20 个 节点 的 网 络 中 ,与 随机 的 协调 器 节点 选择 方法 相 比 ,本 章 提出 
的 博弈 选择 和 模糊 逻辑 推理 相 结合 的 方法 ,其 网 络 吞 吐 量 达到 300b/s, 而 随机 的 协调 器 节 
点 选择 方法 的 网 络 吞 吐 量 为 275b/s。 
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选择 等 级 
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图 7-8 协调 器 节点 的 能 量 对 协调 器 节点 选择 的 影响 


300 T T T T T T 
一 一 TC+AC+Fuzzy 


一 一 随机 


0 30 40 50 60 70 80 90 100 
时 间 /s 


图 7-9 节点 数 为 20 时 的 网 络 吞 吐 量 


7.6 小 结 


本 章 为 受 攻击 的 ZigBee 无 线 传感器 网 络 提出 了 一 个 主动 防御 机 制 ,该 机 制 保证 了 防御 
者 能 主动 选择 可 靠 的 协调 器 节点 来 最 小 化 网 络 的 能 量 损 失 。 使 用 演化 博弈 论 模 型 化 网 络 协 
调 器 的 攻击 防御 问题 为 一 个 2-player 的 零 和 博弈 。 在 协调 器 节点 受到 攻击 时 ,为 了 提高 网 
络 性 能 和 增加 安全 性 ,联盟 成 员 节点 需 选 择 新 的 协调 器 节点 。 本 章 使 用 随机 博弈 论 来 响应 
协调 器 节点 选择 过 程 ,把 网 络 中 的 节点 作为 一 个 博弈 参与 者 ,来 自 于 不 同 邻 居 节 点 的 局 部 组 
合 估计 信息 作为 协调 器 节点 选择 的 依据 ,使 用 模糊 逻辑 ,估计 协调 器 节点 的 可 信 状 态 , 保 证 
了 被 选择 的 协调 器 节点 具有 较 高 的 安全 性 。 实 验 结果 表明 , 当 协 调 器 节点 受 攻击 时 ,使 用 本 
章 提 出 的 算法 能 保证 ZigBee 无 线 传感器 网 络 的 吞吐 量 高 于 标准 的 IEEE 802.15. 4 协议 。 
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面向 传 感 云 数据 外 包 中 心 的 
信任 演化 机 制 研究 


在 面向 传 感 云 的 数据 外 包 中 心 认证 系统 中 需要 用 户 的 个 人 信息 和 私有 证 书 , 由 于 传 感 
云 计算 系统 的 动态 性 和 证 书 私有 性 经 常 导致 认证 失败 。 为 了 解决 这 个 问题 ,本 章 提 出 了 基 
于 动态 证 书 博弈 的 认证 系统 框架 。 在 证 书 认证 博弈 交互 过 程 中 ,通过 认证 代理 补偿 一 定 的 
信任 度 来 激励 传 感 云 用 户 出 示 更 多 的 证 书 , 以 提高 其 信任 度 。 传 感 云 用 户 和 认证 协调 器 通 
过 平衡 证 书 泄 露 和 信任 补偿 之 间 的 关系 来 决定 用 户 是 否 能 够 操作 外 包 数 据 。 这 样 认证 协调 
器 决定 每 次 博弈 信任 度 ,认证 代理 决定 信任 度 分 配 ,整个 动态 证 书 博弈 系统 框架 就 可 以 模型 
化 为 一 个 3 阶段 博弈 ,最 后 ,使 用 迭代 博弈 学 习 方 法 证 明 信 任 协同 的 稳定 性 。 在 传 感 云 环境 
下 ,与 传统 的 基于 属性 和 本 体 的 访问 控制 系统 相 比 ,本 章 提 出 的 动态 证 书 博弈 机 制 提高 了 安 
全 效用 和 认证 性 能 。 


8.1 引言 


随 着 传 感 云 计算 技术 的 发 展 ,为 了 降低 计算 资源 的 成 本 和 提高 数据 使 用 的 安全 性 , 越 来 
越 多 的 企业 把 传 感 数 据 迁 移 到 云 中 存储 和 管理 。 传 感 云 数 据 外 包 中 心 部 署 在 开放 的 环境 
中 ,服务 提供 者 不 仅 需要 向 企业 提供 足够 的 软件 ,硬件 和 网 络 资源 ,而 且 还 必须 具有 高 效 地 
创建 ,更 新 .访问 外 包 传 感 数据 的 机 制 。 同 时 ,对 于 企业 而 言 ,通过 把 传 感 数据 外 包 给 传 感 云 
计算 中 心 ,企业 可 以 集中 处 理 其 业务 应 用 而 无 须 部 署 软件 和 硬件 来 保存 传 感 数据 ,这 使 得 各 
种 传 感 数据 的 存储 和 处 理 不 再 像 传统 的 方式 那样 由 企业 雇用 管理 员 来 运行 和 维护 ,而 是 交 
由 外 包 中 心 来 完成 。 

然而 ,一 旦 外 包 中 心中 的 传 感 数据 泄露 ,将 给 企业 造成 巨大 的 损失 。 而 且 在 开放 计算 环 
境 中 ,企业 的 传 感 数 据 迁 移 到 传 感 数 据 外 包 中 心 后 ,由 于 对 传 感 云 计算 体系 结构 的 安全 由 云 
服务 提供 者 控制 ,真正 的 传 感 数据 拥有 者 企业 却 对 安全 性 的 控制 受到 限制 。 鉴 于 此 , 传 感 云 
服务 提供 者 必须 为 企业 提供 安全 管理 策略 来 提高 数据 的 保密 性 和 完整 性 。 传 感 云 服务 提供 
者 由 于 有 太 多 的 控制 权 , 容 易 越过 权限 去 修改 企业 的 数据 ,这 导致 了 传 感 云 数据 外 包 服 务 提 
供 者 和 企业 之 间 的 较 低 信任 关系 ,最 终 使 得 企业 的 传 感 数据 面临 巨大 的 安全 挑战 "" 。 

用 户 和 云 平 台 之 间 的 证 书 认证 可 保证 数据 的 安全 性 。 然 而 ,由 于 传 感 去 用 户 数 量 庞大 、 
无 线 链 路 具有 动态 性 ,如 何 进行 高 效 地 认证 是 用 户 和 传 感 云 计算 数据 外 包 服 务 提供 商 均 关 
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注 的 问题 。 这 些 问 题 一 方面 包括 用 户 和 传 感 云 数 据 外 包 服 务 提 供 商 之 间 的 低 信任 关系 ; 另 
一 方面 ,由 于 目前 缺乏 信任 的 保证 机 制 , 容 易 造成 外 包 数 据 被 自 改 泄露。 本质 上 , 传 感 云 中 
的 外 包 数 据 保护 不 仅 要 对 数据 进行 加 密 , 还 要 实现 用 户 和 数据 服务 提供 商 之 间 的 信任 管理 ， 
通过 加 密 和 信任 管理 的 双重 保护 ,才能 有 效 遏 制 数据 的 泄露 。 此 外 ,目前 的 传 感 云 终端 网 络 
环境 开放 ,恶意 软件 泛滥 ,数据 传输 通道 没有 被 很 好 保护 。 系 统 级 的 数据 采集 手段 隐蔽 , 难 
以 发 现 和 管控 ,造成 隐私 失窃 。 用 户 的 合法 性 在 客户 端 验 证 潜藏 着 巨大 的 风险 ,把 验证 过 程 
迁移 到 传 感 云 数据 外 包 中 心 可 有 效 地 降低 安全 风险 。 

本 章 将 利用 博弈 论 研 究 用 户 和 传 感 云 数据 外 包 中 心间 的 演化 信任 决策 过 程 ,从 而 揭示 
云 计算 网 络 中 用 户 和 传 感 云 数据 外 包 中 心间 的 信任 演化 原理 。 根 据 博 弈 论 的 特点 ,本 章 将 
每 个 用 户 、 认 证 代理 和 认证 协调 器 看 作 博 弈 的 参与 者 ,将 用 户 披露 的 证 书 看 作 博 弈 策略 , 然 
后 根据 各 个 用 户 能 选择 不 同 的 证 书 披露 策略 的 实际 情况 建立 证 书 认证 信任 演化 博弈 模型 及 
框架 ,并 且 为 了 研究 证 书 泄露 补偿 机 制 对 用 户 选择 披露 证 书 动作 的 影响 ,在 证 书 认证 信任 演 
化 博弈 模型 中 整合 用 户 证 书 披露 程度 、 操 作 偏 好 泄露 度 和 分 配 的 信任 度 等 参数 。 为 了 说 明 
证 书 认证 信任 演化 博弈 模型 的 稳定 性 ,通过 信任 协同 学 习 动 态 方程 探索 证 书 认证 信任 演化 
博弈 的 演化 稳定 的 最 优 信任 状态 。 

本 章 的 主要 工作 如 下 : 

(1) 建立 了 适用 于 传 感 云 数据 外 包 中 心 的 证 书 认证 信任 演化 博弈 模型 来 判断 传 感 云 用 
户 的 合法 性 。 该 模型 考虑 了 证 书 披露 ,用户 操作 的 敏感 性 和 证 书 博弈 过 程 中 的 信任 度 分 配 。 

(2) 推导 出 了 传 感 去 用 户 证 书 披露 的 最 优 策略 ,认证 代理 信任 度 分 配 的 最 优 策略 ,认证 
协调 器 的 最 优 策 略 。 

(3) 形式 化 了 证 书 认证 博弈 的 信任 演化 协同 动态 方程 ,使 用 G-value 学 习 过 程 证 明了 
证 书 认证 信任 演化 博弈 的 稳定 性 。 最 后 ,讨论 了 混合 证 书 认证 策略 。 

本 章 其 余 章节 安排 如 下 : 8. 2 节 介 绍 相关 工作 ; 8. 3 节 描 述 证 书 认证 信任 演化 博弈 模 
型 ; 8.4 节 盖 述 证 书 认证 信任 演化 博弈 的 决策 过 程 ; 8. 5 节 证 明证 书 认证 信任 演化 博弈 的 
稳定 性 ; 8.6 节 给 出 混合 证 书 认证 策略 ; 8.7 节 是 仿真 结果 与 分 析 ; 8. 8 节 给 出 本 章 小 结 。 

本 章 涉 及 的 符号 含义 如 下 : 

M 表 示 认 证 协调 器 (AC) 拥 有 证 书 的 个 数 。 


NN 表示 用 户 拥有 证 书 的 个 数 。 

C 表示 认证 协调 器 的 证 书 集合 。 
C 表示 用 户 的 证 书 集合 。 

S 表示 用 户 集合 。 

AA 表示 认证 代理 集合 。 

AC 表示 认证 协调 器 集合 。 

O 表示 用 户 的 操作 集合 。 

O, 表示 用 户 的 一 个 操作 。 

a 表示 操作 O, 的 证 书 披露 因子 。 
ni 表示 用 户 S; 执行 操作 Ox 披露 证 书 的 总 数 。 
U, 表示 认证 协调 器 的 效用 。 
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Vi 表示 一 个 证 书 披露 后 ,认证 协调 器 1 从 认证 代理 获得 的 信任 度 。 

ni 表示 认证 协调 器 1 对 外 包 数 据 执行 操作 需要 的 证 书 数目 。 

Ki 表示 认证 协调 器 ! 发 送 证 书 给 认证 代理 后 的 证 书 泄露 度 。 

D; 表示 分 配给 用 户 的 信任 度 。 

U GRAUE CERRO CTI o 

K; 表示 用 户 S; 执行 操作 时 的 证 书 披露 度 。 

n; 表示 用 户 S; 披露 证 书 的 数目 。 

Ci, —0 表示 用 户 S; 对 于 外 包 数 据 操作 On 决定 不 披露 证 书 C?。 

Cie = 1 表示 用 户 S; 对 于 外 包 数 据 操作 O 决定 披露 证 书 CI. 

Be 表示 操作 偏好 泄露 因子 。 

Ui (Cia Cine) ARAL Si 的 效用 。 

AR APY S. 用 于 安全 防御 的 资源 损失 率 。 

Ci 表示 用 户 S: 披露 证 书 的 最 优 策 略 。 

c(X ) 表 示 用 户 披 露 证 书 获得 的 收益 函数 。 

表示 用 户 、 认 证 协调 器 用 于 安全 防御 的 资源 损失 率 。 

Ai 表示 认证 协调 器 / 用 于 安全 防御 的 资源 损失 率 。 

U, 表示 N 个 用 户 认证 时 ,认证 代理 的 效用 。 

D? 表示 认证 代理 分 配给 用 户 S; 的 最 优 信任 度 。 

V? 表示 认证 代理 分 配给 认证 协调 器 / 的 最 优 信任 度 。 

Ki 表示 认证 协调 器 1 的 最 优 策略 。 

R 表示 博弈 参与 者 共享 的 信任 状态 空间 。 

q; ORG TERN Alc 博弈 参与 者 i 用 于 安全 防御 的 资源 损失 率 。 

ci(qi(t)) 表 示 在 时 刻 t 博弈 参与 者 i 的 补偿 信任 度 。 

ci(。) 表 示 用 户 ,认证 协调 器 披露 证 书 的 收益 函数 。 

ui( 四 表示 在 时 刻 t 博弈 参与 者 i 的 博弈 效用 。 

H 表示 信任 演化 迭代 轮 号 集合 。 

h 表示 信任 演化 迭代 轮 号 。 

lqin ORRE h AWEKA BESGA i 的 补偿 信任 度 。 

un ORRE h SE TRAE RIZ] 博弈 参与 者 ; 的 博弈 效用 。 

六 表示 博弈 的 最 大 轮 号 。 

B, (1) 表 示 证 书 的 传递 路 径 的 邻接 矩阵 。 

Gijon CO FEAR ES h FERRE AY Al o 存在 一 条 证 书 传递 路 径 SI AA; AC, 

di 人 (表示 第 六 轮 博弈 的 时 刻 : 证 书 传递 路 径 S;>AA;<-AC, 用 于 安全 防御 的 资源 损 
失 率 。 

Cijon Gijon OD BEAR FS h SE ETE AY OE Alo 证 书 传递 路 径 SI AA; AC, 的 补偿 信任 度 。 

qi a ORRE h ERNA c 证 书 传递 路 径 S 一 AA; 用 于 安全 防御 的 资源 损失 率 。 

Cjn Cg. MORRE h 轮 博弈 的 时 刻 1 证 书 传递 路 径 S;->AA; 的 补偿 信任 度 。 

ej nL) BAB BS h 轮 博弈 的 时 刻 1 证 书 传递 路 径 ALAS AC, 用 于 安全 防御 的 资源 损 
失 率 。 
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Cjn CQ s MORRE h SE EAE EE Za] 1 证 书 传递 路 径 ALAS AC. 的 补偿 信任 度 。 

Ty. (1) 为 博弈 参与 者 S AA 和 AC, 在 时 刻 : 期 望 的 信任 协同 结果 。 

eio n LO BEAR FAP? S;、 认 证 代理 AA; 和 认证 协调 器 AC. 的 信任 协同 状态 偏 移 误差 。 

quis CO Eo SS h SE RETE B E Za] WEB k E S> AAA AC 的 信任 协同 学 习 增 益 
G-value。 

A 表示 数据 浏览 权限 证 书 。 

B 表示 数据 增加 权限 证 书 。 

C 表示 数据 删除 权限 证 书 。 

D 表示 数据 修改 权限 证 书 。 

表示 数据 迁移 权限 证 书 。 

F 表示 数据 下 载 权限 证 书 。 

G 表示 数据 上 传 权 限 证 书 。 

C" 表示 为 不 同 的 数据 操作 分 配 相 应 的 信任 等 级 权重 。 

Wa 表示 数据 浏览 操作 分 配 的 信任 权重 。 

Wo 表示 数据 插入 操作 分 配 的 信任 权重 。 

We 表示 数据 删除 操作 分 配 的 信任 权重 。 

W p 表示 数据 修改 操作 分 配 的 信任 权重 。 

We 表示 数据 迁移 操作 分 配 的 信任 权重 。 

We 表示 数据 下 载 操 作 分 配 的 信任 权重 。 

We 表示 数据 上 传 操作 分 配 的 信任 权重 。 

O: 表示 用 户 执行 第 i 条 策略 组 合 操作 获得 的 收益 。 

IC* Oo dE PAL. 

办 (0 表示 用 户 在 第 六 轮 博弈 中 披露 证 书后 获得 的 信任 度 。 

c 表 示 博 弈 轮 数 。 

PORRA ERA t 完成 一 个 策略 组 合 链 上 操作 后 被 分 配 的 信任 度 。 

M, 表示 在 时 刻 t 用 户 可 获得 的 活动 策略 链 。 

TD; 表示 从 时 刻 T。 到 T ,用 户 S; 获得 的 累积 被 分 配 的 总 信任 度 。 


8.2 相关 工作 


防止 恶意 攻击 者 和 传 感 云 数据 外 包 提供 商 窃 取 数 据 ,为 传 感 云 用户 提 供 一 种 安全 ,高 效 
的 数据 保护 措施 尤为 重要 。 相 比 于 密码 认证 的 受 关注 程度 ,目前 仅 有 少量 的 文献 关注 动态 
证 书 认证 ,其 中 比较 有 代表 性 的 工作 有 以 下 几 个 方面 : 

CL) 面向 云 计算 安全 方面 。 文 献 [391] 分 析 并 设计 了 面向 云 计算 的 基于 ADS Authenticated 
Data Structures) 的 数据 外 包 认 证 模型 ,扩展 了 数据 一 致 性 证 据 生成 和 验证 算法 。 文 献 [392] 
阐述 了 在 云 计 算 环 境 中 ,需要 使 用 证 书 来 证 明基 础 设施 服务 .虚拟 服务 器 用户、 设备 之 间 交 
互 的 合法 性 。 它 首先 通过 PKI 产生 需要 的 证 书 , 然 后 扩展 成 包含 有 用 户 角色 信息 的 X. 509 
证 书 ,经 Web 环境 中 的 信任 机 构 颁 发 证 书 。 文 献 [ 393] 针 对 类 似 于 iCloud 用 户 的 密码 泄露 
问题 提出 了 基于 云 存 储 的 密码 管理 机 制 (CSF-BPM)。 随 着 移动 互联 网 的 普及 ,手机 用 户 每 
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天 访问 云 平 台 , 但 大 多 用 户 不 善于 对 其 用 户 名 、 密 码 和 身份 识别 号 管理 ,容易 被 攻击 者 偷窃 , 
为 了 增强 访问 控制 的 安全 级 别 , 方 便 云 用 户 身 份 识别 和 授权 访问 多 个 云 服务 提供 者 ,文献 
[394] 提 出 了 第 三 方 的 身份 识别 和 管理 系统 (IDMs) 。 面 对 云 数据 安全 、 滥 用 云 服务 、 恶 意 的 
内 部 攻击 ,文献 L[395] 提 出 了 一 个 模型 来 识别 不 同 的 访问 控制 需求 ,对 访问 权限 进行 了 控制 。 
文献 [396] 对 于 云 存储 的 数据 保护 提出 了 分 布 式 的 访问 控制 机 制 ,能 实现 用 户 撤销 .数据 读 
取 等 权限 。 文 献 L397] 为 保证 云 用 户 上 传 和 下 载 媒 体 数据 的 安全 性 ,提出 了 数字 水 印 的 算法 
对 用 户 和 媒体 服务 提供 者 进行 认证 。 文 献 L[398] 根 据 服务 的 信任 感知 来 动态 调度 云 服务 。 
文献 L399] 针 对 个 人 浏览 网 络 信息 提出 了 基于 博弈 论 的 隐私 保护 框架 。 

(2) 面向 外 包 数 据 中 心 数据 保护 方面 。 文 献 [400, 401] 针 对 外 包 数 据 的 完整 性 ,结合 
公 钥 加 解密 算法 提出 了 一 种 高 效 的 数据 完整 性 审核 机 制 。 文 献 [402] 通 过 分 析 向 量 和 向 量 
点 积 的 代数 性 质 ,对 外 包 数 据 进行 正确 性 验证 ,有 效 地 抵御 了 攻击 威胁 。 文 献 [403] 针 对 外 
包 服 务 网 络 , 根 据 已 有 的 信息 对 缓存 中 的 链接 进行 分 析 , 使 用 域名 服务 雷达 (DNS Radar) 来 
探测 恶意 攻击 。 
(3) 面向 无 线 传感器 网 络 方面 。 文 献 [404] 对 车 载 通信 网络 ,使 用 证 书 选 择 的 方法 对 追 
踪 的 车 辆 进行 隐私 保护 。 由 于 车 辆 的 移动 性 使 得 证 书 的 个 数 受 到 限制 ,在 解决 这 个 问题 时 
主要 考虑 了 如 何 减 少 证 书 来 快速 地 进行 车 辆 的 身份 认证 。 在 文献 [405] 中 ,对 车 载 通信 网 络 
中 的 证 书 更 新 提供 了 一 种 分 布 式 的 分 发 机 制 , 并 使 用 批 处 理 验证 技术 实现 减少 证 书 验证 开 
销 的 目的 。 文 献 L[406] 针 对 无 线 传感器 网 络 中 的 信任 关系 建立 博弈 模型 ,给 出 了 无 线 传感器 
网 络 节点 之 间 的 信任 演化 动态 方程 ,证 明了 信任 演化 的 稳定 性 。 文 献 [407-414] 主 要 针对 
MANETs 网 络 提 出 了 信任 模型 。 

以 上 这 些 方法 中 ,对 于 云 计算 中 心 数据 的 保护 提出 了 验证 和 加 密 算法 ,但 对 于 传 感 云 资 
源 管理 的 动态 性 所 造成 的 动态 认证 问题 ,还 未 有 相应 的 解决 方案 。 在 对 车 载 网 络 通信 中 使 
用 证 书 验证 的 方法 对 用 户 进行 访问 控制 时 ,考虑 了 证 书 选取 的 随机 性 和 快速 认证 的 特征 ,但 
对 于 证 书 的 泄露 和 信任 度 分 配 还 未 考虑 。 本 章 利用 基于 证 书 认证 的 信任 演化 博弈 研究 传 感 
云 用 户 和 传 感 云 数据 外 包 中 心动 态 认证 的 信任 建立 问题 。 通 过 建立 传 感 云 数据 外 包 中 心服 
务 提供 者 和 传 感 去 用户 间 的 博弈 策略 和 模型 来 获得 服务 提供 者 与 用 户 之 间 信 任 决 策 时 的 安 
全 效用 ,引入 激励 机 制 促使 服务 提供 者 与 传 感 去 用 户 选 择 出 示 证 书 的 策略 。 引 入 证 书 泄露 
机 制 、 操 作 因子 和 学 习 增 益 使 得 服务 提供 者 与 传 感 去 用 户 尽 可 能 出 示 较 少 的 证 书 获得 较 大 
信任 度 , 并 在 较 短 的 时 间 内 完成 认证 。 这 一 点 有 别 于 传统 的 基于 属性 和 本 体 角色 的 认证 方 
法 。 这 些 研究 成 果 将 为 传 感 云 数 据 外 包 中 心服 务 提 供 者 和 传 感 云 用 户 之 间 信 任 机 制 的 设计 
提供 理论 基础 。 


8.3 ”证书 认证 信任 演化 博弈 模型 


8.3.1 传 感 去 数据 外 包 中 心 访 问 控制 系统 


传 感 去 用 户 \ 传 感 云 数据 外 包 服 务 提供 者 之 间 的 外 包 数 据 访问 控制 系统 如 图 8-1 所 示 。 
其 中 ,整个 访问 控制 系统 由 传 感 去 用 户 、 认 证 代理 (服务 访问 点 ) 、 认 证 协调 器 组 成 。 传 感 云 
数据 外 包 中 心 通过 云 服 务 平台 向 用 户 提 供 访问 控制 服务 。 服 务 访问 点 作为 认证 代理 负责 对 
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用 户 和 认证 协调 器 出 示 的 证 书 进行 匹配 。 

假设 认证 协调 器 (AC) 有 M 个 证 书 . 用 户 有 N 个 证 书 。 令 Cm (CE CH Ch) RRE 
协调 器 的 证 书 集合 ,C* 一 4CY,C3,…,C8 } 表 示 用 户 的 证 书 集合 ,S 一 {S:,S:,…,Sr} 表 示 用 
户 集合 , AA 一 {AA1,AA:,…,AAs ) 表 示 认 证 代理 集合 ,AC= 二 {ACi,AC:,…,ACz } 表 示 认 
证 协调 器 集合 。 所 有 的 用 户 、 认 证 代理 .认证 协调 器 通过 理性 博弈 实现 自身 的 效用 最 大 化 。 


aad. | E 
pes We E 
JA 认证 协调 器 WE 代理 Fas P 
S LO 1 


传 感 云 数据 外 包 中 心 


EEZ 


图 8-1 传 感 去 数据 外 包 中 心 访问 控制 系统 


认证 代理 接收 不 同 用 户 和 认证 协调 器 的 证 书 并 跟 证 书 集 C* REC" 进行 匹配 。 同 时 , 认 
证 代理 计算 用 户 和 认证 协调 器 每 次 证 书 披露 后 的 信任 度 , 对 认证 协调 器 每 次 的 认证 处 理 提 
高 其 认证 等 级 。 用 户 和 认证 协调 器 出 示 的 证 书 是 私有 信息 ,这 些 信 息 被 披露 给 第 三 方 认证 
代理 ,认证 代理 分 配给 用 户 和 认证 协调 器 一 定 的 信任 度 以 补偿 证 书 披露 的 损失 ,并且 激励 其 
披露 更 多 的 证 书信 息 以 提高 信任 度 。 用 户 和 认证 协调 器 根据 证 书 私 有 人 敏感 性 .通过 披露 证 
书 获得 的 信任 度 来 决定 是 否 继续 披露 证 书 。 


8.3.2 私有 证 书 披露 敏感 性 


定义 8-1 ”证书 认 证 信任 演化 博弈 的 信任 度 定义 为 信任 演化 博弈 过 程 中 为 补偿 私有 证 
书 披露 而 分 配 的 一 定数 量 的 信任 值 。 

用 户 披露 不 同 种 类 的 证 书 获得 不 同等 级 的 数据 访问 权限 。 例 如 ,披露 数据 迁移 和 修改 
证 书 表 明 用户 有 组 合 管理 权限 ,但 是 ,这 容易 造成 高 级 的 操作 权限 泄露 。 又 如 , 当 披露 数据 
浏览 证 书 时 ,仅仅 表明 需要 检索 数据 ,但 是 这 会 造成 低级 的 操作 权限 泄露 。 记 用 户 S; 的 操 
作 集合 为 O={10, ,0: ,…,O.) ,对 操作 Or RE (1.2. a) ,相应 的 证 书 披露 因子 记 为 a:。 同 
时 ,披露 证 书 造成 的 私有 证 书 泄露 与 总 的 组 合 性 证 书 披露 数目 成 正比 ,这 表明 用 户 披露 越 少 
的 证 书 , 它 将 有 越 低 的 私有 敏感 性 证 书 泄露 。 因 此 ,把 用 户 私 有 证 书 泄露 度 定 义 为 s/s 
其 中 ni 表示 用 户 S; 执行 操作 O 披露 证 书 的 总 数 。 


8.3.3 证书 认证 信任 演化 博弈 的 效用 


用 户 使 用 披露 的 证 书 通过 认证 后 ,可 以 操作 外 包 数 据 。 对 于 用 户 的 每 次 披露 , 令 V, R 
示 一 个 证 书 披露 后 ,认证 协调 器 ! 从 认证 代理 获得 的 信任 度 。 认 证 协调 器 的 效用 定义 为 


119 


120 


| 博 变 论 与 无 线 传感器 网 络 安全 


Ua = Vini— Ka (8-1) 
式 中 ,为 认证 协调 器 : 对 外 包 数 据 执行 操作 需要 的 证 书 数目 ; Ki 为 认证 协调 器 /1 发 送 证 
书 给 认证 代理 后 的 证 书 泄露 度 。 
认证 代理 从 认证 协调 器 接收 到 外 包 数 据 操作 所 需 的 证 书 ,再 进行 证 书 匹配 通过 后 会 把 
信任 度 D; 分 配给 用 户 S; 来 补偿 用 户 为 了 执行 外 包 数 据 操作 所 披露 的 证 书 。 认 证 代理 
(Broker) 的 效用 定义 为 
Us= DKmit DKmi— 2)Di— HV; (8-2) 
式 中 ,Ki 为 用 户 S; 执行 操作 时 的 证 书 披露 度 ; ns 为 用 户 S; 披露 证 书 的 数目 。 
接 下 来 ,用 户 S: 通过 博弈 策略 来 决定 是 否 披露 证 书 , 令 Ci 二 0 表示 用 户 S; 对 于 外 包 
数据 操作 On 决定 不 披露 证 书 C? Cu —1 表示 用 户 S; 对 于 外 包 数 据 操作 On 决定 披露 证 书 
CY。 每 个 用 户 为 执行 外 包 数 据 操作 O 出 示 证 书后 获得 的 信任 度 为 


Ci 
Di — od (8-3) 
> DSCs 


而 用 户 S; 执行 外 包 数 据 操作 的 损失 包括 两 方面 : 一 方面 是 证 书 泄露 ; 另 一 方面 是 操作 
偏好 泄露 。 用 户 S; 执行 数据 操作 Os 的 证 书 和 操作 偏好 泄露 度 表示 为 
DA (8-4) 
式 中 , 为 操作 偏好 泄露 因子 。 例 如 ,用 户 通过 WiFi 接 入 传 感 云 数据 外 包 中 心 浏览 传 感 数 
据 , 此 时 若 无 线 链 路 被 窃听 者 控制 ,虽然 窃听 者 能 截获 证 书 , 但 锚 听 者 还 不 能 从 截获 的 证 书 
中 获知 此 证 书 拥有 的 访问 权限 ,于 是 ,窃听 者 需 进 一 步 获得 用 户 的 操作 行为 偏好 ,根据 用 户 
的 操作 行为 偏好 ,窃听 者 才 可 进一步 推测 出 截获 的 证 书 是 否 具有 浏览 数据 的 权限 。 这 里 的 
Be 越 大 ,表明 用 户 泄露 了 越 多 的 操作 行为 ,窃听 者 就 能 获得 越 多 与 证 书 相 关 的 操作 权限 信 
息 , 再 根据 这 些 信息 假冒 合法 用 户 入 侵 传 感 云 数据 服务 器 来 获取 、 算 改 数据 。 用 户 S; 的 效 
用 可 表示 为 
UC C4) = DD, ye. ài» E30 B (8-5) 
SU A: 为 用 户 S; 用 于 安全 防御 的 资源 损失 率 。 从 式 (8-5) 中 可 看 出 , 当 atp 的 值 越 小 ， 
AL D; 的 值 越 大 ,用 户 S; 的 效用 越 大 。 也 即 ,泄露 较 少 的 证 书 和 操作 行为 偏好 ,并 且 获 得 了 
较 高 的 信任 度 。 同 时 ,a 十 B 的 值 通过 信任 度 的 分 配 还 影响 了 认证 协调 器 .认证 代理 的 效 
用 。 因 此 ,证 书 认证 信任 演化 博弈 中 各 参与 者 之 间 的 博弈 过 程 实质 就 是 增 大 用 户 ,认证 代理 
和 认证 协调 器 这 三 者 之 间 效 用 的 过 程 。 也 就 是 说 ,在 博弈 过 程 中 通过 适当 地 控制 ay 十 Bi 的 
值 来 提高 各 自 的 安全 效用 ,可 以 有 效 地 防御 攻击 者 对 于 用 户 的 证 书 和 操作 行为 偏好 的 窍 取 ， 
从 而 提高 用 户 访问 传 感 云 外 包 数 据 的 安全 性 。 


8.4 证 书 认 证 信任 演化 博弈 


本 章 根据 用 户 认 证 的 交互 过 程 , 把 证 书 认证 信任 演化 博弈 机 制 形式 化 描述 为 一 个 3 阶 
段 博弈 。 在 第 一 阶段 ,用 户 首先 向 认证 代理 发 送 数据 操作 请 求 , 认 证 代理 根据 其 数据 操作 请 
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求 向 用 户 发 送 披露 证 书 请 求 。 为 了 最 大 化 安全 效用 ,认证 代理 和 用 户 进行 证 书 交互 的 同时 ， 
认证 代理 也 与 认证 协调 器 进行 证 书 交互 。 在 第 二 阶段 ,用 户 首先 披露 其 请 求 操作 对 应 的 证 
书 , 认 证 代理 根据 用 户 披露 的 证 书 分 配 信任 值 。 在 这 个 阶段 ,认证 代理 根据 认证 协调 器 和 用 
户 披露 的 证 书 来 调整 分 配给 认证 协调 器 和 用 户 的 信任 值 。 在 第 三 阶段 ,认证 协调 器 和 用 户 
根据 认证 代理 分 配 的 信任 度 决定 是 否 继续 披露 证 书 。 证 书 认证 信任 演化 博弈 中 各 参与 者 之 
间 的 交互 过 程 如 图 8-2 所 示 。 


第 一 阶段 四 发 送 数据 操作 请 求 第 一 阶段 发 送 操作 对 应 证 书 匹配 请 求 


第 二 阶段 分 配 信 任 值 


第 三 阶段 根据 优化 策略 选择 披露 证 书 
图 8-2 证 书 认 证 信任 演化 博弈 交互 过 程 
图 8-3 描述 了 证 书 认证 信任 演化 博弈 系统 整体 框架 , 它 包含 7 个 组 件 : 用 户 、 认 证 代 
理 , 认 证 协调 器 信任 状 态 识别 、 迭 代 学 习 增益 G 值 .认证 行动 选择 .证书 披露 策略 。 其 中 ， 
用 户 、 认 证 代理 ` 认 证 协调 器 为 博弈 的 参与 者 ,通过 这 些 参与 者 之 间 的 协作 认证 使 得 系统 信 
任 度 最 终 达到 稳定 状态 。 


用 户 
数据 操作 请 求 
认证 通过 1 
输入 


i 
信任 状态 ERE 认证 行动 | 行动 
识别 增益 G 值 选择 


认证 
第 三 阶段 根据 优化 策略 选择 披露 证 书 


证 书 匹配 
认证 代理 


认证 协调 器 
图 8-3 证 书 认证 信任 演化 博弈 系统 框架 


在 图 8-3 中 ,信任 状态 识别 指示 了 博弈 参与 者 的 信任 度 是 否 达到 稳定 , 若 系统 框架 中 的 
博弈 参与 者 的 信任 度 达 到 稳定 , 则 博弈 参与 者 的 安全 效用 达到 最 大 ,表明 当前 只 需要 泄露 较 
少 的 证 书 和 操作 偏好 ,就 能 获得 认证 通过 并 进行 数据 操作 。 若 系统 框架 中 参与 者 的 信任 度 
还 未 达到 稳定 状态 ,此 时 ,用 户 要 不 断 地 出 示 证 书 ,然后 认证 协调 器 负责 查找 证 书 并 提交 给 
认证 代理 ,认证 代理 再 负责 匹配 证 书 。 在 此 博弈 过 程 中 ,用 户 、. 认 证 代理 .认证 协调 器 为 了 最 
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大 化 自己 的 效用 ,将 选择 博弈 策略 来 达到 信任 协同 的 稳定 状态 。 和 迭代 学 习 增 益 G 值 是 指 用 
户 、 认 证 代理 和 认证 协调 器 通过 证 书 认 证 博弈 获得 累积 效用 的 信任 协同 学 习 增 益 。 认 证 行 
动 选择 是 指 终止 认证 或 开始 新 一 轮 的 认证 。 证 书 披露 策略 主要 指 用 户 将 根据 a 十 B AD: 
的 值 来 决定 是 否 披露 证 书 。 

证 书 认证 博弈 的 信任 演化 开始 时 ,用 户 首先 向 认证 代理 发 起 数据 操作 请 求 ,驱动 认证 代 
理 输 入 系统 的 信任 状态 初始 值 ,然后 信任 状态 识别 主要 通过 博弈 状态 方程 描述 博弈 参与 者 
之 间 信 任 度 的 演化 状态 。 接 下 来 ,用 户 和 认证 协调 器 优化 证 书 披露 策略 并 选择 行动 。 认 证 
代理 再 根据 用 户 和 认证 协调 器 的 证 书 披露 策略 分 配 信任 度 。 最 后 ,用 户 、 认 证 代理 和 认证 协 
调 器 通过 更 新 整个 证 书 传递 路 径 上 的 迭代 学 习 增 益 G 值 使 得 整个 信任 演化 系统 框架 达到 
纳什 均衡 。 


8.4.1 用 户 披露 证 书 的 优化 策略 


对 于 同一 个 操作 On ,每 个 用 户 都 想 最 大 化 自己 的 安全 效用 ,并 出 示 较 少 的 证 书 。 因 此 ， 
每 个 用 户 的 安全 效用 不 仅 依赖 于 自身 的 决策 ,而 且 还 依赖 于 其 他 用 户 的 决策 ,用 户 S; 披露 
证 书 的 优化 策略 可 表示 为 

Ci, = arg max Ui (Cit C-ia) (8-6) 

如 果 每 个 用 户 采 用 最 优 策 略 , 则 通过 证 书 认证 博弈 ,就 可 使 得 用 户 、 认 证 代理 ,认证 协调 
器 之 间 的 信任 达到 最 优 均衡 。 

定理 8-1 如 果 条 件 Di>(ae 十 Bo) 成立, 那么 ,在 用 户 之 间 存 在 纳什 均 衔 最 优 策 略 。 

证 明 由 式 (8-5) 可 以 推导 出 


U! (Cres Ci) = >) (Di — Ga + 0A) 


Cit 

er 

4 D> Cae + BA. WI GE BH AS; 披露 证 书 , 即 Ci 三 1. 这 样 可 增加 S; 的 安全 效用 
Ui (Cin Coin) o 3$ Di Cae Bio); 则 说 明 用 户 S; 不 披露 证 书 , 即 Ca —0. 3x FEJH P S; 的 
证 书 泄露 度 较 小 ,可 避免 降低 安全 效用 UE (Cie ,C-ix)。 因 此 ,S; 通过 决定 Ci 的 值 能 使 用 
户 保持 最 大 安全 效用 Ui (Cia Coie) ,此 时 ,Ca 是 用 户 S; 的 最 优 策略 。 从 而 可 以 得 出 当 
D> Cant Be dai 时 ,Ui(Cin，C-in) 保 持 非 零 状 态 ,使 得 每 个 用 户 使 用 此 种 机 制 获得 最 优 策略 
时 ,纳什 均衡 达到 稳定 状态 。 证 毕 。 


8.4.2 认证 代理 信任 演化 博弈 策略 


当 用 户 S; 根据 定理 8-1 作出 决策 后 ,认证 代理 感知 到 用 户 S; 策略 的 变化 ,再 决定 分 配 
给 用 户 S; 的 信任 度 D;, 从 而 认证 代理 能 决策 其 最 优 的 信任 度 分 配 策略 。 

定理 8-2 若 有 NN 个 用 户 同时 发 起 认证 请 求 时 ,认证 代理 存在 最 优 信任 度 分 配 策略 使 
其 效用 最 大 化 。 

WEB] 设 用 户 披露 证 书 获得 的 收益 函数 为 

cQ’) -1—ew (8-8) 

式 中 ,cn 为 常量 ; 4 为 用 户 、 认 证 协调 器 用 于 安全 防御 的 资源 损失 率 ,其 中 资源 包括 执行 外 
包 数 据 操作 泄露 的 证 书 和 操作 偏好 资源 。 当 传 感 云 数据 外 包 中 心 同时 有 N 个 用 户 发 出 证 


(8-7) 
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书 认证 请 求 时 ,用 户 S; 用 于 安全 防御 的 资源 损失 率 为 


Bi : 
be (8-9) 
用 户 S; 披露 证 书 的 数目 为 
n= N [7* God (8-10) 


当 传 感 云 数据 外 包 中 心 同时 也 有 M 个 认证 协调 器 发 出 证 书 匹 配 请 求 时 , 认证 协调 器 ! 用 于 
安全 防御 的 资源 损失 率 为 
Vi 


am n (8-11 
认证 协调 器 L 对 外 包 数 据 执行 操作 需要 的 证 书 数目 为 
a M [FF ca (8-12) 


由 式 (8-2) 可 以 推导 出 N 个 用 户 认证 时 ,认证 代理 的 效用 为 


D; M1 
Us = X(kN 7 cQ dà — Ds) + SD (Km [ead 一 V) (8-13) 


对 Us 分 别 求 D; 和 Vi 的 一 阶 偏 导 得 


B= DLE ot Hi 
ae = 


wo, =o 时 ,认证 代理 获得 最 优 信任 度 分 配 策略 解 ,其 中 ,认证 代理 分 配给 用 


P S, 的 最 优 信任 度 为 


Di = (a+ Bde (SAA) (8-16) 
认证 代理 分 配给 认证 协调 器 L 的 最 优 信任 度 为 
VP =a + pire (BoB) (8-17) 
令 
alata , 
c Hi KN )=x (8-18) 
则 
(X) = Ht Bk i: 
«0 = ty (8-19) 
由 式 (8-8) 得 
| aa t+ Be * 
X= LIU IA ) (8-20) 


代入 式 (8-16) 和 式 (8-17) 中 ,可 分 别 得 到 
D: cr Ain(1 a+b) | (8-21) 
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六 一 十 | ilm eA] (8-22) 
证 毕 。 
8.4.3 认证 协调 器 信任 演化 博弈 策略 
认证 协调 器 通过 观察 可 感知 认证 代理 的 策略 变化 ,从 而 选择 其 最 优 策略 。 
定理 8-3 HU. ee A ge i e CE o 时 , 则 认证 协调 器 存在 最 优 策略 角 


Kr? ,使 其 效用 最 大 。 
WEBB 由 式 (8-1) 可 推导 出 


"T D. 
U, = (V, — Kom = v, - KoM f? cdi (8-23) 
可 得 Ua 连续 且 U, V, ,所 以 ,把 Ua 取 对 数 后 再 求 K, 的 一 阶 偏 导 得 
d uS 
dCInU,) 1 十 一 aa He’ Nae te (8-24) 
dK, VSK, oi dK, 
p * ea diu 
由 式 (8-8) 得 
d. Ni a sme S) t 
ata l—e"m (8-25) 
由 式 (8-22) ,可 得 
al 
an + Be 1 dvr) ex T f ui 
dK, at dK; mK (KM — Can + B) 
把 式 (8-25) 和 式 (8-26) 代 入 式 (8-24) 可 得 
dCInU,) 1 d-e€GR ax f mE 
dK, V-K GL nK (K M= Ga + B» 
P ^ c(A dà 
` 
m pD ) <0, m ) 是 关于 自 变量 开 ， 的 递减 函数 。 所 以 ， yf 一 0 时 , 存 


在 优化 解 Ki , 即 认证 协调 器 的 最 优 策略 ,使 其 效用 最 大 。 证 毕 。 


8.5 证 书 认证 信任 演化 博弈 的 稳定 性 分 析 


信任 度 的 自 适应 学 习 过 程 对 于 每 个 博弈 参与 者 来 说 是 相同 的 。 在 用 户 、 认 证 代理 ,认证 

协调 器 三 者 中 的 信任 度 学 习 的 结果 是 使 得 它们 达到 信任 协同 ,也 即 保持 较 高 的 信任 度 聚 集 

效应 。 假 设 广 个 由 用 户 、 认 证 代理 ,认证 协调 器 组 成 的 动态 证 书 认证 访问 控制 网 络 , 共 享 相同 
的 信任 状态 空间 R。 令 1 为 一 个 时 间 变 量 ,每 个 参与 者 在 时 刻 1 的 信任 演化 博弈 状态 方程 为 

ci(qi(ti+ D) = cal H ult), ilm (8-28) 

式 中 ,gi(?) 为 在 时 刻 t 博弈 参与 者 i 用 于 安全 防御 的 资源 损失 率 ; cC GOD HERA 上 博弈 
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参与 者 i 的 补偿 信任 度 ; ui(1) 为 在 时 刻 1 博弈 参与 者 i 的 博弈 效用 。 令 H— (hele. Te} 
表示 信任 演化 迭代 轮 号 集合 ,hE H 表示 信任 演化 选 代 轮 号 。 在 第 刀 轮 博弈 , 式 (8-28) 中 博 
蛮 参 与 者 i 的 补偿 信任 度 和 博弈 效用 分 别 表示 为 ci(gi《)) 和 ui CO ,第 i 个 参与 者 的 补偿 
信任 度 动态 演化 方程 表示 为 
ci(gin (t+ 1)) = ci(gin (2)) Fun, iP lom (8-29) 
式 (8-29) 表 示 了 在 证 书 认 证 信任 演化 博弈 的 每 一 轮 中 ,用 户 S;、 认 证 代理 AA; 和 认证 
协调 器 AC, 的 博弈 策略 是 动态 变化 的 ,从 而 引起 它们 的 信任 度 也 在 不 断 变化 。 若 证 书 的 传 
递 路 径 为 :一 AA; 一 AC,, 则 表示 它 对 应 于 第 h 轮 博弈 的 时 刻 +, 从 S; 到 AA; 和 AC, 到 
AA; 的 一 条 认证 路 径 。 把 证 书 的 传递 路 径 的 邻接 矩阵 表示 为 
BG) = [ass (t) (8-30) 
SUP assa (OATES h SETZE RU E23 c 存在 一 条 证 书 传递 路 径 SI AA; AC... 
对 任意 3 个 博弈 参与 者 SAA; 和 AC. ,把 
Civh (Gijon (1)) = cua (Qian (0) — eg a Cui (D) (8-31) 
作为 它们 的 信任 协同 演化 方程 。 其 中 ,co Causa DRRR h SE ETE BY E Za] o 证 书 传递 路 
f& Si AA; AC, 的 补偿 信任 度 ,ci.s Gua COO BEANS h 轮 博弈 的 时 刻 1 证 书 传递 路 径 Si 
AA; 的 补偿 信任 度 ,cs (qs.n(?)) 表 示 第 hh 轮 博弈 的 时 刻 t 证 书 传递 路 径 AAj< 一 AC 的 补 
偿 信任 度 。 令 T5,(7) 为 博弈 参与 者 S; AA 和 AC, 在 时 刻 : 期 望 的 信任 协同 结果 ,从 而 可 
把 证 书 认证 的 信任 演化 是 否 稳定 的 问题 转化 为 用 户 Si;、 认 证 代理 AA; 和 认证 协调 器 AC。 
之 间 的 信任 协同 问题 ,用 户 ,认证 代理 和 认证 协调 器 的 信任 协同 状态 偏 移 误差 为 
ejoa C) = T$ GOD — casa (gyv,n(t)) (8-32) 
根据 证 书 披露 信息 和 认证 代理 的 信任 值 分 配 信息 ,形式 化 信任 协同 效用 为 


Uia (t) = ua C) + >, Pion (Dag CE) X [The lE) — ego Gaon (t))] (8-33) 
i€ S,j€ AA,v€ AC.A€H 
其 中 ， 


je €(0,1], #Cu=1 

lo. 其 他 
表示 第 hh 轮 博弈 的 时 刻 t 证 书 传递 路 径 S;>AA;<-AC, 的 信任 协同 学 习 增益 G 值 。 这 样 可 
得 到 博弈 参与 者 后 一 轮 与 前 一 轮 的 效用 增 量 为 

Au = uia) = = 5 ior (Lagoa Ct) XET golt) — essa Given (021 


i€ Sj€ AA, VE AC hE 


(8-34) 


(8-35) 
H Tho (1) — eg, a (Gijon 1) 0 WI] Au— 0. BEBH E T iA UE BS RAE PE AS BOE» TE 1 aK 91 
稳定 状态 ,此 时 的 Cion (Gijon COO A B UC E fri EE BE «HELP GEAR EE AIA HE DEED Af EE 
披露 证 书 获得 信任 度 而 提高 自己 的 安全 效用 。 


8.6 混合 证 书 认 证 策略 


在 传 感 云 数 据 外 包 中 心 , 用 户 操作 数据 的 证 书 集 表示 为 
Cu = {A,B,C,D,E,F,G} (8-36) 
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式 中 ,A 为 数据 浏览 权限 证 书 ; B 为 数据 增加 权限 证 书 ; C 为 数据 删除 权限 证 书 ; D 为 数据 
修改 权限 证 书 ; E 为 数据 迁移 权限 证 书 ; F 为 数据 下 载 权限 证 书 ; G 为 数据 上 传 权 限 证 书 。 
当 一 个 证 书 博 弈 过 程 中 只 包含 针对 一 种 数据 操作 的 证 书 策略 ,叫做 单 证 书信 任 认证 策略 。 
当 一 个 证 书 博 弈 过 程 中 包含 针对 多 种 数据 操作 的 证 书 策略 ,叫做 混合 证 书信 任 认 证 策略 。 
实际 上 , 当 用 户 对 外 包 数 据 进 行 组 合 操作 时 ,需要 混合 证 书信 任 认证 策略 。 即 ,对 外 包 数 据 
进行 组 合 操作 时 ,获得 不 同 数据 操作 权限 要 出 示 不 同 的 证 书 , 混 合 安全 策略 如 表 8-1 所 示 。 


表 8-1 混合 安全 策略 


策略 浏览 增加 删除 修改 迁移 下 载 上 传 
P, * x 
P, x x 
P, * * x x 
P, x x x 
Ps x x x x x " 
P, x x x x x x 
P; x x x x x x 


TER 8-1 中 ,Pi,i€ (0.2.77) ,表示 数据 操作 策略 , x 表示 组 合 策略 具有 的 权限 。 不 
同 的 数据 操作 对 应 的 信任 等 级 权重 为 
C" = (1,2,3,4,5,6,7) (8-37) 
权重 越 大 信任 级 别 越 高 ,证 书 的 保护 程度 越 高 。 令 数据 操作 和 证 书信 任 等 级 工 的 权重 W d 
示 为 
CY = {A:2,B:3,C:7,D:6,E:5,F:4,G:1} (8-38) 
其 中 ,数据 操作 C 对 应 的 证 书信 任 等 级 最 高 ,其 次 是 数据 操作 D。 令 Wa 表示 数据 浏览 
操作 分 配 的 信任 权重 ,Ws 表示 数据 插入 操作 分 配 的 信任 权重 ,Wc 表示 数据 删除 操作 分 配 
的 信任 权重 ,Wo 表示 数据 修改 操作 分 配 的 信任 权重 ,Ws 表示 数据 迁移 操作 分 配 的 信任 权 
重 ,WE 表示 数据 下 载 操作 分 配 的 信任 权重 ,We 表示 数据 上 传 操作 分 配 的 信任 权重 。 用 户 
执行 第 i 条 策略 组 合 操作 获得 的 收益 可 表示 为 
O: = Wili 十 WI + Wile + Wild + WI e + Wile + Welt (8-39) 
式 中 ,I(，。) 为 指示 函数 , 当 用 户 出 示 数 据 操作 对 应 的 证 书 时 ,函数 值 为 1; 否则 为 0。 例 如 ， 
在 表 8-1 中 ,对 于 认证 代理 中 的 Pe 策略 ,车 分 配 的 操作 信任 权重 分 别 为 : Wa 二 2,Ws 二 3， 
Wc—0,Wp—6,Wg—5.W,—4.Wc—1. H.£ Eon PR ORCI (8.23 2: I4 1. I5 —0.Ic—0. 
Ip—1.1g—0.1;—0.15—1. WHP 3k ftia Jg 0 二 9。 用 户 执行 第 i 条 策略 组 合 操作 获得 
的 收益 由 认证 代理 来 计算 ,同时 认证 代理 还 实现 了 组 合 策略 的 层次 结构 。 根 据 表 8-1, 在 
图 8-4 中 描述 了 进行 证 书 和 操作 信任 匹配 的 投影 层次 结构 ,在 结构 图 中 按照 不 同 的 策略 可 
分 为 多 个 层次 ,通过 这 个 层次 结构 进行 证 书 和 操作 信任 的 匹配 ,其 中 ,{Pi,P:,P:,P,,P,:， 
Ps ,P;} 构 成 策略 组 合 链 。{A.B,C.D,.E,.F.G} 构 成 证 书 和 操作 信任 链 , 它 们 组 成 了 混合 证 
书 认证 策略 。 混 合 证 书 认证 策略 的 信任 度 分 配 包括 两 次 信任 度 分 配 , 一 次 是 在 每 轮 披 露 证 
书 过 程 中 分 配 信任 度 ; 另 一 次 是 完成 策略 组 合 链 上 的 所 有 操作 后 再 次 分 配 信任 度 。 
用 户 S: 多 轮 披露 证 书后 累积 被 分 配 的 信任 度 表示 为 
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图 8-4 信任 策略 链 和 证 书 链 投影 层次 结构 


po 一 Yo (8-40) 
SUH os CONS HIP (E58 h SE EAE HP ER UE B Jer BR A AY f EE RE s 2 为 博弈 轮 数 。 用 户 S; 完成 
所 有 策略 组 合 链 上 操作 后 累积 被 分 配 的 信任 度 为 


M, 


aw = 6.0) (8-41) 


式 中 ,@ (71) 为 用 户 在 时 刻 1 完成 一 个 策略 组 合 链 上 操作 后 被 分 配 的 信任 度 ; Ma 为 在 时 刻 : 
用 户 可 获得 的 活动 策略 链 。 认 证 代理 和 认证 协调 器 可 使 用 这 些 策略 链 控制 用 户 访问 操作 的 
信任 权限 。 

式 (8-40) 和 式 (8-41) 是 以 时 间 为 自 变 量 的 函数 , 随 着 时 间 的 推移 ,用 户 通过 披露 不 同 
的 证 书 链 来 获得 不 同 的 策略 组 合 链 , 从 而 执行 不 同 的 外 包 数 据 操作 。 从 时 刻 Te 到 Ti ,用户 
S, 获得 的 累积 被 分 配 的 总 信任 度 为 


T. 
TD; =| nD +a. rae (8-42) 


8.7 实验 


在 这 部 分 对 博弈 过 程 进行 仿真 并 且 评估 其 性 能 。 在 仿真 中 考虑 3 个 方面 问题 : 一 是 用 
户 证 书 和 操作 偏好 的 泄露 对 于 用 户 信 任 度 的 影响 ; 二 是 用 户 证书 和 操作 偏好 的 泄露 对 其 效 
用 的 影响 ; 三 是 确定 认证 协调 器 终止 一 轮 认 证 过 程 的 合适 参数 和 信任 协同 学 习 增 益 对 演化 
稳定 状态 的 影响 。 

CD. 用 户 、 认 证 协调 器 选择 最 优 策略 对 其 安全 效用 的 影响 。 

图 8-5 给 出 了 随 着 用 户 选择 最 优 策略 Ci 披露 证 书 , 使 得 每 次 证 书 博 穿 中 用 户 的 平均 
信任 度 随 着 其 证 书 披露 获得 收益 而 增长 ,从 而 最 大 化 用 户 的 安全 效用 Ui(Cin.C-in)。 图 8-6 
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给 出 了 在 博弈 过 程 中 ,认证 协调 器 选择 最 优 策略 Ki ,使 得 认证 协调 器 的 效用 随 着 证 书 披露 
而 增长 。 值 得 说 明 的 是 ,认证 代理 获得 的 效用 越 大 ,会 使 认证 代理 分 配 更 多 的 信任 度 来 激励 
用 户 披露 证 书 。 


用 户 的 平均 信任 度 
i 


08 
06 
04 
0.29 3 10 15 20 
证 书 披露 收益 
图 8-5 用 户 每 次 博弈 获得 的 信任 度 
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图 8-6 ”认证 协调 器 证 书 博弈 获得 的 效用 


(2) 用 户 证 书 披露 因子 和 操作 偏好 对 其 信任 度 的 影响 。 

当 D> Cae + Be) Ai 时 ,用 户 开始 披露 证 书 来 获取 信任 度 。ar B. 的 取 值 影响 用 户 是 否 披 
露 证 书 及 获得 信任 度 的 大 小 。 在 图 8-7 中 , 当 用 户 证 书 披露 因子 和 操作 偏好 增长 时 ,导致 很 
高 的 证 书 和 操作 偏好 泄露 度 。 用 户 的 证 书 披露 和 操作 偏好 泄露 越 多 ,其 获得 的 信任 度 就 越 
高 , 当 ww 二 及 二 3.5 时 ,用 户 的 信任 度 达 到 最 大 值 约 为 430。 通 过 归 一 化 处 理 后 ,信任 度 经 过 
认证 代理 分 配给 用 户 。 

(3) 多 轮 证 书 披露 累积 信任 度 和 所 有 策略 组 合 链 上 操作 完成 后 的 信任 度 分 配 。 

总 的 信任 度 分 配 量 由 式 (8-42) 中 六 (2) 和 @;(z) 值 决定 , 即 多 轮 证 书 披露 累积 信任 度 和 
所 有 策略 组 合 链 上 操作 完成 后 的 信任 度 分 配 。 在 图 8-8 中 ,认证 代理 分 配 信任 度 补偿 用 户 
证 书 和 操作 偏好 泄露 ,使 得 用 户 的 信任 度 增加 。 在 仿真 中 ,使 用 7 表示 刀 (D 6 表示 (OD. 
随 着 7 和 $$ 值 的 增加 ,认证 代理 分 配 信 任 度 增 大 , 当 ?一 % 一 3.5 时 ,分 配 的 信任 度 可 达 8.2， 
经 过 归 一 化 函数 处 理 后 分 配给 用 户 。 
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图 8-8 累积 信任 度 分 配 


(4) 用 户 证 书 披露 因子 和 操作 偏好 对 其 效用 的 影响 。 

a «Pe 的 取 值 超过 一 定 阔 值 时 ,用 户 的 信任 度 虽 然 会 增加 ,但 其 安全 效用 下 降 。 此 时 ,用 
户 需 开始 新 一 轮 的 认证 过 程 。 在 图 8-9 中 , 当 用 户 的 w Be 增 大 时 ,用 户 的 证 书 和 操作 偏好 
泄露 机 会 增加 ,认证 协调 器 保持 效用 为 一 个 常量 ,认证 代理 的 效用 随 之 增加 ,但 用 户 的 效用 
随 之 不 断 减 小 。 当 xe» Be > 3 时 ,用 户 的 效用 趋 近 于 0, 此 时 用 户 虽然 可 获得 认证 代理 分 配 的 
[ri EE BE ,但 其 效用 变 到 最 低 AE 204 4,773 时 ,用 户 将 不 能 再 出 示 证 书 ; 否则 将 使 得 非法 窃 
听 者 完全 获得 其 证 书 和 操作 偏好 。 为 了 完成 证 书 认 证 和 防止 非法 用 户 的 穷 听 , 认 证 协调 器 
此 时 将 终止 当前 的 认证 过 程 ,开始 新 的 证 书 认证 策略 链 , 直 到 用 户 认证 通过 为 止 。 

(5) ae 和 cm 对 多 个 用 户 信任 度 分配 的 影响 。 

由 式 (8-21) 可 知 ,认证 代理 分 配给 用 户 的 最 优 策略 为 D; , 它 根据 披露 因子 a 和 利益 函 
数 c(2) 来 决定 其 分 配 策略 。 从 图 8-10 中 可 以 看 出 , 当 用 户 的 证 书 披露 因子 a 增 大 且 利 益 
函数 常量 c。 减 小 时 ,认证 代理 分 配给 用 户 的 平均 信任 度 在 增长 。 例 如 , 当 as 二 0.2、cs 二 0.3 
时 ,优化 的 平均 信任 度 较 低 ; 当 a = 0. 9,0 = 0. 1 时 ,优化 的 平均 信任 度 最 高 ,这 意味 着 认证 
代理 分 配给 用 户 高 的 信任 度 ,这 是 由 于 证 书 披露 因子 ww 最 高 ,但 利益 函数 常数 c 最 小 时 ， 
根据 式 (8-21) ,得 分 配给 用 户 的 信任 度 D? 值 增 大 。 
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图 8-9 用 户 证 书 披露 因子 和 操作 偏好 对 其 效用 的 影响 


一 -0.6,c08 | 
—4—a;=0.9, c1=0.1 
—a5-02,c4-0.3 | 


0 200 400 600 800 1000 
用 户 数 


图 8-10 a, 和 cw 对 多 个 用 户 信任 度 分 配 的 影响 


(6) 学 习 增 益 对 用 户 到 认证 代理 .认证 代理 到 认证 协调 器 证 书 传递 路 径 的 信任 协同 学 
习 误差 的 影响 。 

多 个 用 户 、 认 证 代理 .认证 协调 器 经 过 多 阶段 博弈 和 多 操作 证 书 链 验证 才 达 到 信任 协 
同 。 达 到 信任 协同 稳定 也 即 认证 结束 ,信任 协同 时 间 影 响 了 认证 机 制 的 性 能 ,认证 性 能 的 好 
坏 取 决 于 学 习 增 益 对 于 用 户 到 认证 代理 、 认 证 代理 到 认证 协调 器 证 书 传递 路 径 的 学 习 误 差 
的 影响 。 

图 8-11 给 出 了 用 户 、 认 证 代理 和 认证 协调 器 之 间 学 习 增益 对 于 信任 协同 学 习 误差 的 影 
响 。 使 用 非 零 的 学 习 增益 ja —0. 5 表示 用 户 S; 的 信任 协同 学 习 增 益 值 ,wz 二 0.7 表示 在 证 
TAG BRR Si AA; 上 认证 代理 AA; 的 信任 协同 学 习 增 益 值 ,二 0. 1 表示 在 证 书 传递 路 
径 AA;<-AC。 上 认证 代理 AA; 的 信任 协同 学 习 增 益 值 ,ms 三 0. 3 表示 认证 协调 器 的 信任 协 
同学 习 增 益 值 。 由 于 pa (D 5 pa F e ua CO = ps T ga s PELA ua CO a CO RAAE 
理 和 认证 协调 器 之 间 的 信任 演化 协同 快 于 用 户 和 认证 代理 之 间 的 演化 协同 , 越 小 的 学 习 增 
益 表明 在 很 短 的 时 间 内 信任 达到 稳定 状态 ,可 以 极 大 提高 认证 系统 的 性 能 。 
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信任 协同 学 习 误差 


信任 协同 学 习 误差 


图 8-11 学 习 增益 对 信任 协同 学 习 误差 的 影响 


(7) 与 传统 的 基于 属性 和 本 体 角 色 的 访问 控制 效用 比较 。 

本 章 提出 的 证 书 博 弈 的 动态 认证 机 制 考虑 了 证 书 泄露 因子 和 操作 偏好 、 动 态 证 书 策略 
链 等 因素 ,基于 增益 学 习 的 信任 协同 有 效 地 缩短 了 认证 时 间 , 提 高 了 用 户 、 认 证 代理 和 认证 
协调 器 之 间 的 安全 效用 。 

在 图 8-12 中 ,与 传统 的 基于 属性 和 本 体 的 访问 控制 系统 进行 了 比较 , 当 平 均 证 书 泄露 
度 变化 时 ,访问 控制 参数 和 学 习 增 益 p 使 得 证 书 的 披露 数 自 适应 变化 。 当 用 户 数 增长 时 ， 
动态 证 书 认证 演化 博弈 通过 调节 证 书 披露 因子 .操作 偏好 .学习 增益 使 得 认证 协调 器 和 用 户 
HIRR ll fes EE BE AS WNR, ERREP, 40.9.0, —0. Lear d Bi 3 ej (1) < piin 1) 
时 ,通过 控制 认证 系统 的 性 能 参数 ,可 使 系统 动态 认证 的 信任 和 安全 效用 最 优 。 对 于 传统 的 
基于 属性 和 本 体 的 访问 控制 系统 而 言 无 法 动态 处 理 大 量 的 传 感 云 用 户 的 认证 请 求 , 使 得 系 
统 的 效用 下 降 , 同 时 ,信任 度 也 很 难 建立 。 此 外 ,由 于 在 传 感 云 计算 环境 中 , 传 感 云 用 户 和 资 
源 之 间 的 关系 是 Ad Hoc 和 动态 的 .资源 和 用 户 在 不 同 的 安全 域 。 用 户 的 身份 经 常 由 他 们 
的 特征 和 属性 来 识别 ,而 不 是 使 用 证 书 预先 定义 用 户 身份 。 例 如 ,对 分 布 式 多 服务 器 体系 结 
构 常 使 用 智能 卡 识 别 用 户 身份 "5 。 但 是 智能 卡 容易 被 伪造 ,而 动态 的 证 书 不 容易 被 伪造 ， 
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图 8-12 与 传统 的 基于 属性 和 本 体 的 访问 控制 效用 比较 
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即使 被 伪造 了 ,还 要 经 过 多 轮 的 认证 博弈 ,所 以 能 有 效 过 滤 恶 意 的 攻击 者 。 因 此 ,传统 的 根 
据 属性 和 本 体 来 做 访问 控制 决策 “的 模型 对 于 传 感 云 计算 系统 是 不 高 效 、 不 安全 的 。 与 
传统 的 基于 属性 和 本 体 "" 的 静态 访问 控制 机 制 相 比 ,本 章 中 提出 的 动态 证 书 博弈 机 制 提 
高 了 安全 效用 和 认证 性 能 。 


8.8 小 结 


当 用 户 通 过 披露 证 书 执行 传 感 云 数据 外 包 中 心 访问 操作 时 ,证 书 和 操作 偏好 可 能 会 泄 
露 给 窃听 者 。 本 章 针对 传 感 云 数据 外 包 中 心 访问 控制 系统 提出 了 基于 动态 证 书 博弈 的 框 
架 。 证 书 认证 博弈 交互 过 程 中 ,经 过 认证 代理 补偿 一 定 的 信任 度 来 激励 用 户 出 示 更 多 的 证 
书 , 以 提高 其 信任 度 。 用 户 和 认证 协调 器 通过 平衡 证 书 泄露 和 信任 补偿 之 间 的 关系 来 决定 
是 否 执 行 数据 访问 操作 ,认证 代理 根据 用 户 披 露 的 证 书 决 定 信任 度 的 分 配 。 本 章 模型 化 了 
证 书 认 证 的 信任 演化 博弈 的 系统 框架 为 一 个 3 阶段 的 多 轮 博弈 ,使 用 多 轮 欠 代 博 弈 效用 分 
析 法 分 析 了 证 书 认证 信任 演化 博弈 的 稳定 性 。 通 过 数值 仿真 验证 了 用 户 、 认 证 代理 ,认证 协 
调 器 的 优化 策略 ,数值 仿真 显示 ,在 传 感 云 计算 环境 下 ,本 章 提 出 的 证 书 认证 信任 演化 博弈 
在 效用 和 性 能 方面 高 于 传统 的 基于 属性 和 本 体 的 访问 控制 系统 。 
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基于 随机 演化 联盟 博弈 的 虚拟 
传 感 云 服务 安全 机 制 研 究 


本 章 提出 了 随机 演化 联盟 博弈 框架 并 以 此 分 析 受 攻击 传 感 云 服务 系统 的 安全 机 制 。 在 
博弈 的 每 一 阶段 , 传 感 云 服务 提供 者 能 够 观察 到 服务 组 合 节点 的 虚拟 容量 和 攻击 者 的 策略 ， 
根据 这 些 观察 ,决定 需 分 配 的 虚拟 容量 值 来 保证 可 靠 安全 的 服务 组 合 。 传 感 云 服 务 提供 者 
通过 minimax-Q 和 演化 联盟 形成 学 习 算 法 , 自 适应 地 变化 防御 策略 ,对 攻击 者 进行 动态 防 
御 并 形成 可 靠 安全 的 服务 组 合 。 与 随机 博弈 和 演化 联盟 博弈 相 比 ,本 章 提 出 的 随机 演化 联 
盟 博弈 策略 在 动态 虚拟 的 安全 服务 组 合 过 程 中 获得 了 较 好 的 性 能 。 


9.1 引言 


传 感 云 作为 一 个 异 构 的 网 络 通信 环境 , 它 利 用 云 体系 结构 管理 物理 传感器 节点 ,把 物理 
传感器 节点 映射 成 虚拟 传 感 节点 ,通过 虚拟 传 感 云 服 务 处 理 物理 传感器 节点 的 感知 数据 。 
虚拟 传 感 节点 共享 云 资源 ,这 使 得 各 种 物理 传感器 节点 的 数据 能 同时 通过 云 平台 来 处 理 , 极 
大 地 增强 了 物理 传感器 数据 的 处 理 速度 。 因 此 ', 传 感 云 在 环境 监控 ,智慧 农业 、 健 康 护 理 等 
方面 具有 诸多 应 用 。 

传 感 云 平台 作为 云 服务 提供 者 管理 和 维护 云 服务 ,但 是 ,要 使 得 传 感 云 服务 系统 安全 可 
靠 地 运行 还 面临 着 诸多 安全 挑战 。 在 传 感 云 环境 中 ,攻击 者 能 够 利用 云 服务 系统 的 漏洞 和 
资源 来 实施 攻击 。 当 前 ,入 侵 检测 技术 是 一 项 用 于 解决 虚拟 传 感 云 服务 系统 安全 的 有 效 技 
术 。 通 过 入 侵 检 测 技术 能 够 监控 攻击 者 的 攻击 策略 以 及 系统 的 虚拟 容量 状况 , 据 此 ,虚拟 传 
感 云 服务 提供 者 能 够 感知 可 以 获得 虚拟 容量 的 节点 ,选择 最 佳 的 协作 节点 组 合成 可 靠 安全 
的 服务 网 络 , 以 此 为 私有 云 和 公有 去 用 户 提供 服务 。 

在 云 计算 体系 的 多 层 结构 中 ,基础 设施 .平台 和 应 用 都 会 遭 到 不 同 的 安全 威胁 ,恶意 的 
攻击 者 可 能 在 云 计 算 系统 的 不 同 层 上 发 起 攻击 。 然 而 ,已 有 的 工作 大 都 假设 攻击 者 采用 固 
定 且 不 随时 间 变 化 的 策略 ,如 果 攻 击 者 也 采用 系统 资源 监控 技术 ,它们 很 可 能 根据 动态 的 网 
络 环境 和 防御 策略 自 适应 地 调整 攻击 策略 。 

本 章 主 要 讨论 对 传 感 云 服务 系统 的 容量 攻击 ,并 且 提 出 随机 演化 联盟 博弈 的 框架 来 设 
计 虚 拟 传 感 云 服务 组 合 的 可 靠 安全 的 防御 策略 , 它 能 随 虚 拟 传 感 云 服务 组 合 环境 、 服 务 质 
Ht 资源 状态 等 系统 的 性 能 参数 而 变化 。 通 过 模型 化 策略 和 动态 博弈 把 防御 者 和 攻击 者 之 
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间 的 交互 看 作 零 和 随机 演化 联盟 博弈 。 为 了 确保 虚拟 传 感 云 服务 组 合 的 可 靠 性 、 安 全 性 和 
组 合 容量 的 最 大 化 ,提出 了 为 私有 云 和 公有 云 提供 服务 组 合 容量 的 混合 分 配 机 制 ,并 且 根据 
攻击 者 变化 的 策略 自 适应 地 分 配 容量 。 其 中 ,定义 的 演化 联盟 博弈 用 于 合作 容量 分 配 ,而 随 
机 博弈 用 于 观察 攻击 者 的 行动 状态 。 

本 章 使 用 minimax-Q 学 习 算法 ,为 虚拟 传 感 云 服 务 提供 者 获得 了 最 优 策略 。 当 云 计算 
中 心 容量 缺乏 时 ,虚拟 传 感 云 服务 提供 者 将 减少 公有 去 用户 的 容量 ,从 而 为 私有 去 用 户 预 留 
一 定 的 容量 。 当 云 计 算 中 心 容 量 升 高 时 ,空闲 的 容量 将 分 配给 公有 云 用 户 。 虚 拟 传 感 云 服 
务 提供 者 通过 演化 联盟 组 成 服务 组 合 时 , 若 云 服务 提供 者 观察 到 由 于 受到 攻击 使 得 容量 降 
低 难以 保证 服务 质量 的 情况 , 云 服务 提供 者 将 采取 混合 策略 以 避免 在 下 一 时 刻 受 到 严重 攻 
击 时 降低 服务 质量 。 在 云 计算 中 心 , 当 有 多 个 服务 提供 者 时 ,通过 演化 联盟 形成 容量 共享 的 
服务 组 合 ,可 获得 较 高 的 服务 质量 。 这 样 ,通过 动态 地 形成 私有 云 服 务 组 合 联盟 和 公有 云 服 
务 组 合 联盟 ,调节 内 部 和 外 部 容量 ,将 使 攻击 者 难以 决策 。 因 此 ,虚拟 传 感 云 服务 提供 者 使 
用 随机 演化 联盟 博弈 能 获得 较 高 的 防御 收益 。 

在 扩展 作者 前 期 工作 5 的 基础 上 ,本 章 的 工作 主要 包括 以 下 内 容 ， 

(1) 为 实现 虚拟 传 感 云 服务 组 合 的 可 靠 性 ,通过 建立 形式 化 的 随机 演化 联盟 博弈 模型 
来 获得 攻击 防御 的 最 优 策略 。 优 化 模型 考虑 了 攻击 者 的 攻击 策略 和 服务 组 合 质量 的 动态 变 
化 ,通过 对 云 计算 中 心 的 资源 监控 和 攻击 者 行动 的 观察 自 适应 地 调整 其 服务 组 合 策略 。 

(2) 把 云 服务 提供 者 对 服务 组 合 状态 的 观察 模型 化 为 有 限 状态 的 马尔 可 夫 链 (Finite 
State Markov Chain,FSMC) 。 它 能 描述 云 服务 提供 者 和 攻击 者 之 间 的 随机 博弈 状态 ,通过 
它 可 以 计算 出 双方 的 收益 。 

(3) 使 用 minimax-Q 学 习 算 法 获得 攻击 防御 的 最 优 策略 。 通 过 Shapley 值 来 使 得 合作 
的 云 服务 提供 者 获得 公平 的 收益 分 配 ,激励 云 服务 提供 者 合作 形成 联盟 。 使 用 联盟 形成 学 
习 算法 实现 云 服务 提供 者 的 收益 ,再 通过 学 习 最 优 策略 形成 稳定 的 可 靠 联盟 ,从 而 增强 虚拟 
传 感 云 服务 的 可 靠 性 、 安 全 性 和 服务 质量 。 

本 章 其 余 章节 安排 如 下 : 9. 2 节 总 结 相关 工作 ; 9. 3 节 描述 虚拟 传 感 云 服 务 安全 框架 ; 
9. 4 节 描述 传 感 云 服务 安全 博弈 模型 ; 9. 5 节 曾 述 随机 演化 联盟 博弈 优化 策略 ; 9. 6 A RES 
随机 演化 联盟 均衡 学 习 策略 ; 9. 7 节 是 实验 和 仿真 ; 9.8 节 给 出 本 章 的 小 结 。 

本 章 涉及 的 符号 含义 如 下 ; 

C 表示 虚拟 传 感 云 服务 网 络 。 

I 表示 虚拟 传 感 节 点 集合 。 

L 表示 虚拟 传 感 节 点 。 

己 表 示 虚 拟 传 感 节 点 1; 和 1 之 间 建 立 的 虚拟 链 路 ,该 链 路 在 时 刻 e 的 服务 质量 为 
QoS; (D. 

Di ORR HE B RA S e LEE GB HEURE TG PT a 

Dj (0) 表 示 在 受 攻击 情况 下 的 通信 时 间 。 

P (0 表示 成 功 防御 的 概率 。 

As (D) 表 示 成 功 防御 后 获得 的 收益 。 

Cs () 表 示 虚 拟 链 路 (I;,1) 在 时 刻 :可 用 的 容量 。 

S' 表 示 由 虚拟 传 感 节点 组 成 的 服务 组 合 的 集合 。 
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六 表示 虚拟 传 感 节点 1; 可 以 提供 功能 为 f; 的 服务 。 

Je 表示 缓存 数据 功能 。 

表示 转发 数据 功能 。 

QoS; GO dez HELP IB A L 提供 的 服务 st 的 服务 质量 。 
Pi(st) 表 示 使 用 六 服务 时 防御 成 功 的 概率 。 
Ai(sk) 表 示 使 用 服务 时 防御 的 收益 。 

Ci(st) 表 示 节 点 I 使 用 st 服务 时 提供 的 容量 。 

QoS% 表 示 虚 拟 传 感 云 内 部 服务 提供 者 的 服务 质量 。 
QoS: 表 示 虚 拟 传 感 云 外 部 服务 提供 者 的 服务 质量 。 

ac, 表示 虚拟 传 感 云 内 部 服务 提供 者 的 数量 。 

y: 表示 虚拟 传 感 云 外 部 服务 提供 者 的 数量 。 

G, 表示 为 每 个 传 感 云 服务 提供 者 分 配 的 容量 。 

Ciwm 表 示 虚 拟 链 路 es 在 联盟 mE€M 中 可 用 的 容量 。 

Ch m RIR EMBEE ey EIKI m E M 中 正常 传输 时 的 容量 。 
Cia RIR EMBER ey 在 受 攻击 者 AEK 攻击 时 的 容量 。 

r: 表示 在 时 刻 t 的 收益 。 

7Y' 表 示 在 时 刻 t 的 贴现 因子 。 

S 表示 虚拟 传 感 云 服务 在 时 刻 : 的 状态 集合 。 

N “表示 博弈 参与 者 集合 。 

An 表示 博弈 参与 者 i 在 联盟 mE€M 中 可 用 的 行动 集合 。 
已 表 示 虚 拟 传 感 云 服务 将 时 刻 : 的 状态 集合 S 转换 为 时 刻 1 十 1 的 状态 集合 SH He 


换 概率 。 


U 表示 攻击 者 和 防御 者 获得 的 收益 。 

外 表示 参与 者 i 和 j 之 间 具 有 合作 关系 。 

ki 表示 节点 度 。 

R; 表示 参与 者 i 能 提供 的 资源 。 

表示 联盟 中 虚拟 传 感 节点 ;的 可 靠 性 配置 。 

Ci 表示 参与 者 ; 能 为 其 邻居 节点 提供 的 容量 。 

P 表示 参与 者 i 选择 参与 者 j 作为 合作 者 形成 联盟 的 选择 概率 。 
C; 表示 虚拟 传 感 节点 i 的 邻居 节点 j 提供 的 容量 。 

rt 表示 描述 虚拟 机 硬件 和 软件 的 环境 变量 。 

(c) 表 示 稳 定 联盟 的 平均 容量 。 

a 表示 参与 者 的 容量 因子 。 

Di; 表 示 在 联盟 m 中 参与 者 i 的 收益 。 

天 表示 参与 者 ; 能 提供 的 共享 容量 。 

I 表示 参与 者 i 的 邻居 节点 提供 的 共享 容量 。 

C? 表示 参与 者 i 在 容量 因子 a 的 影响 下 提供 的 共享 容量 。 

C 表示 参与 者 i 的 邻居 节点 在 容量 因子 a 的 影响 下 提供 的 共享 容量 。 
大 一 1 表示 参与 者 i 与 邻居 节点 合作 。 
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Z 表示 参与 者 i 当前 的 负载 。 
Z 表示 在 时 刻 1 参与 者 i 的 负载 能 力 。 

8B 表示 负载 因子 。 

temp 表示 虚拟 传 感 节点 的 临时 集合 。 

w 表示 邻居 节点 j RRE. 

和 表示 邻居 节点 了 的 容量 阔 值 。 

Ay 表示 邻居 节点 了 的 收益 阔 值 。 

N 表示 理性 的 虚拟 传 感 节点 组 成 的 博弈 参与 者 集合 。 

N 表示 理性 的 虚拟 传 感 节点 (博弈 参与 者 ) 数 量 。 

更 表示 虚拟 传 感 节点 类 型 集合 。 

co 表示 合作 形成 联盟 。 

de 表示 不 具有 可 靠 的 能 力 合作 形成 联盟 。 

S 表示 随机 演化 联盟 博弈 状态 空间 的 笛 卡 儿 积 。 

S 表示 随机 博弈 的 状态 空间 。 

S' 表 示 演 化 联盟 的 状态 空间 。 

A 表示 随机 演化 联盟 博弈 参与 者 的 行动 状态 空间 的 笛 卡 儿 积 。 

a 表示 随机 博弈 防御 者 的 行动 集合 。 

N 表 示 随 机 博弈 参与 者 对 于 攻击 者 动态 变化 的 攻击 策略 采取 随机 防御 行动 的 个 数 。 
X 表示 演 化 联盟 参与 者 的 行动 集合 。 

N 表示 演化 联盟 参与 者 的 行动 个 数 。 

6 表示 随机 演化 联盟 博弈 的 收益 。 

à; 表示 随机 博弈 参与 者 的 收益 。 

R* 表示 随机 博弈 参与 者 的 收益 函数 。 

人 表示 演化 联盟 博弈 参与 者 的 收益 。 

Re 表示 演化 联盟 博弈 参与 者 的 收益 函数 。 

à, CM co RRIETA] 1 为 防御 行动 和 演化 联盟 获得 的 平均 收益 。 
1j 表示 虚拟 传 感 节 点 i 与 可 靠 的 虚拟 传 感 节点 j 合作 形成 联盟 。 
FRIRE DERW G i 的 期 望 收益 。 

Was 表示 在 联盟 M 中 节点 i 的 邻居 节点 的 可 靠 度 。 

P3 Ga ) 表 示 在 联盟 M. 中 节点 i 与 其 他 联盟 成 员 合作 的 可 靠 性 概率 。 
Pj 表示 虚拟 传 感 节点 i 观测 到 邻居 节点 j 为 可 靠 节 点 的 概率 。 

fj 表 示 虚 拟 传 感 节点 与 邻居 节点 j 合作 。 
表示 邻居 节点 j RO RT AERE S 

Cb, (Mo he) 表示 虚拟 传 感 节点 i 的 期 望 容量 效用 函数 。 

C34 CM hO ER EWERT i 受 攻击 时 的 平均 容量 损失 函数 。 
| M Ez I. M 中 虚拟 传 感 节点 的 个 数 。 

cxCM) 表 示 联 盟 M 中 虚拟 链 路 es 受 攻击 者 k 攻击 时 的 容量 损失 。 
P 表示 随机 演化 联盟 博弈 的 传递 概率 。 
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户 表 示 随 机 博弈 的 传递 概率 。 
A(S") 表 示 状 态 空间 S^ 的 概率 分 布 。 
表示 演化 联盟 博弈 的 传递 概率 。 
A(S") 表 示 状 态 空间 5" 的 概率 分 布 。 
表示 演化 联盟 的 偏好 。 

yh 表示 虚拟 传 感 节点 的 状态 。 


SKAREN AI t 随机 演化 联盟 博弈 虚拟 传 感 节点 状态 。 

im BEAR TERY Za] t 联盟 m 中 虚拟 传 感 节 点 i 的 可 靠 性 。 

Cin 表 示 在 时 刻 t 联盟 m 中 虚拟 传 感 节点 i 的 容量 。 

Himn RREZ) 受 攻击 联盟 wm 中 虚拟 传 感 节点 i 的 容量 。 

P”(1 十 1) 表 示 虚 拟 传 感 节 点 由 不 可 靠 状 态 转 移 到 可 靠 状 态 的 概率 。 

PO (1 十 1) 表 示 虚 拟 传 感 节点 由 可 靠 状 态 转 移 到 不 可 靠 状 态 的 概率 。 

Di 表示 虚拟 传 感 节 点 i 处 于 不 可 靠 状 态 的 概率 。 

8 表示 转移 到 可 靠 状态 时 的 容量 收益 。 

co 表示 转移 到 不 可 靠 状 态 时 的 容量 。 

DE 表示 虚拟 传 感 节 点 i 获得 收益 的 概率 。 

S 表示 在 时 刻 : 随机 演化 联盟 博弈 服务 组 合 的 状态 。 

Sin 表示 与 虚拟 传 感 节点 i 的 可 靠 性 和 容量 相关 的 状态 。 

Hn 和 Hs,ex 分 别 表示 在 时 刻 1 服务 组 合 m 受到 攻击 的 内 部 和 外 部 服务 数 。 
al 表示 在 时 刻 : 联盟 博弈 参与 者 的 防御 行动 集合 。 

aii 和 ah,en 表 示 选 择 未 攻击 的 虚拟 传 感 节点 i 加 入 联盟 后 ,分 别 分 配 的 内 部 和 外 部 


容量 。 
ai ua 和 ah,ew 表 示 选 择 以 前 受 攻击 的 虚拟 传 感 节点 i 加 入 联盟 后 ,分 别 分 配 的 内 部 和 外 
部 容量 。 


a, 表示 在 时 刻 : 攻击 者 的 行动 集合 。 

abhm 和 ai 分别 表 示 在 时 刻 1 攻击 者 分 别 选 择 以 前 未 攻击 和 受 攻击 的 虚拟 传 感 节点 i 
攻击 其 容量 。 

a, 表示 在 时 刻 t 联盟 m 选择 的 行动 。 

amin 和 amea 表示 联盟 m 分别 选择 未 攻击 的 内 部 服务 和 外 部 服务 作为 服务 提供 者 。 

amin 和 a%,ewz 表 示 联 盟 m 分 别 选择 以 前 受 攻击 的 内 部 服务 和 外 部 服务 作为 服务 提 

ao 表示 在 时 刻 : 攻击 者 对 联盟 m 采取 的 行动 。 

amm A aao BEAR FE 2] t 攻击 者 分 别 对 联盟 m 中 以 前 未 受 攻击 和 受 攻击 的 服务 发 起 攻 
击 行动 。 

DOCS ,Ceu | Himin o Aine sat a5,44) 3€ ZR TE TE Za] 1 未 受 攻击 的 虚拟 传 感 云 服务 在 提供 内 
部 服务 或 外 部 服务 时 受 攻击 的 概率 。 

Ch 和 Coa 表示 在 时 刻 t 未 受 攻击 的 虚拟 传 感 节 点 提供 给 内 部 服务 和 外 部 服务 的 容 
量 数 。 
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Cio 和 Cee 表 示 在 时 刻 1 受 攻击 的 虚拟 传 感 节点 在 时 刻 t 十 1 转换 为 可 靠 状态 能 提供 给 
内 部 服务 和 外 部 服务 的 容量 数 。 

co 表示 未 攻击 的 容量 。 

c; 表示 虚拟 传 感 云 服务 的 总 容量 。 

DCi Coa | Hin s Hiner am ,amz) 表 示 受 攻击 的 虚拟 传 感 节点 在 时 刻 1 提供 内 部 服务 
或 外 部 服务 时 受 攻击 的 概率 。 

c%,z 表 示 虚 拟 传 感 云 服务 组 合 联盟 m 被 攻击 的 容量 。 


PCS | S a! ak) RR N 个 虚拟 传 感 节点 组 成 的 厄 个 服务 组 合 的 随机 博弈 状态 传 
递 概率 。 

b OM? |M') 表 示 联 盟 结构 从 状态 Mr 转换 到 状态 MT f HERE, 

POSTE STT Set S" ,a',a',a) 表 示 随机 演化 联盟 博 穿 的 状态 传递 概率 。 

S" 表 示 在 时 刻 1 随机 博弈 的 状态 空间 。 

SORRERA: 演化 联盟 的 状态 空间 。 

a' 表 示 在 时 刻 1 演化 联盟 参与 者 采取 的 行动 。 

COS! sa «a! sai) 表 示 在 每 个 博弈 阶段 获得 的 收益 。 

BOS! sa! «a ,ai 表 示 联 盟 参与 者 使 用 防御 策略 形成 可 靠 服务 组 合 的 容量 配置 。 

p"(S',a',a',a) 表 示 所 有 的 虚拟 传 感 节点 受到 攻击 的 概率 。 

Cmax 表示 虚拟 传 感 节点 的 最 大 容量 。 

Q'CS' .a' «a sa 和 表示 随机 博弈 的 Q 函数 。 

VCS'** ,x* ) 表 示 随 机 博弈 状态 更 新 的 值 函 数 。 

m1(Sm1*) 表 示 演 化 联盟 的 可 靠 性 更 新 函数 值 。 

Q(S',a',a',a) 表 示 随 机 演化 联盟 博弈 的 Q 函数 。 

# SORRERA e 的 演化 联盟 的 可 靠 性 更 新 函数 值 。 

VS pes SE) uae ) 表 示 随 机 演化 联盟 博弈 状态 更 新 的 值 函数 。 

Ci(，。) 表 示 虚 拟 服务 组 合 联盟 获得 的 收益 。 

m 表示 联盟 参与 者 i 的 策略 。 

ni 表示 联盟 参与 者 i 的 纳什 均衡 策略 。 

x*; 表 示 除 联盟 参与 者 i 外 的 所 有 联盟 参与 者 的 纳什 均衡 策略 。 

gi(c) 表 示 每 个 联盟 参与 者 i 的 平均 收益 分 配 。 

|M" | 表示 向 内 提供 服务 的 虚拟 传 感 节点 总 数 。 

| Me™ | 表示 向 外 提供 服务 的 虚拟 传 感 节点 总 数 。 

ORRERA j 向 内 提供 服务 时 ,获得 Shapley 值 的 平均 收益 分 配 概率 。 

oF Cc) BA MEAG AT AL j 向 外 提供 服务 时 ,获得 Shapley 值 的 平均 收益 分 配 概率 。 

di(S',a',g;(c)) 表 示 随 机 演化 联盟 博弈 中 虚拟 传 感 节 点 j 的 Shapley 值 平均 收益 分 配 
的 容量 。 

cCM) 表 示 联 盟 M 的 平均 容量 。 

ci 和 ci 分 别 表示 内 部 服务 不 合作 和 合作 获得 的 收益 分 配 。 

cfi 和 < 个 分 别 表 示 外 部 服务 不 合作 和 合作 获得 的 收益 分 配 。 
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Cit RAR TEM Al o 联盟 参与 者 j 选择 内 部 服务 组 合 联盟 m 后 观察 到 的 收益 。 
2 表示 在 时 刻 : 内 部 服务 组 合 联盟 wm 中 博弈 参与 者 j 期 望 的 收益 。 
表示 在 时 刻 t 博弈 参与 者 j 在 内 部 服务 组 合 联盟 的 学 习 速 率 。 

OS RAR TEM A ¢ 外 部 服务 组 合 联盟 m 中 博弈 参与 者 ) 期 望 的 收益 。 

cuz AR (ERE Za] t 联盟 参与 者 j 选择 外 部 服务 组 合 联 盟 m 后 观察 到 的 收益 。 
co 表示 在 时 刻 : 博弈 参与 者 7 在 外 部 服务 组 合 联盟 的 学 习 速 率 。 

bi 表示 若 在 时 刻 : 虚拟 传 感 节点 j 被 选中 加 入 到 联盟 M, 则 其 值 为 1; 否则 为 0。 
qc TERRE Za] t 虚拟 传 感 节点 7 处 于 可 靠 状态 , 则 其 值 为 1; 否则 为 0。 
& 表示 在 时 刻 : 博弈 参与 者 7 的 学 习 速率 。 

Aj(1,1 十 1) 表 示 联 盟 参 与 者 j 变化 其 策略 的 概率 。 

Q CS? ,P* ax" ,6” M" ) 表 示 随 机 演化 联盟 博弈 稳定 状态 。 

S 表示 随机 演化 联盟 稳定 的 状态 。 

P “表示 稳定 状态 的 传递 概率 。 

a” 表示 稳定 策略 。 

O° 表示 稳定 状态 的 收益 。 

M' 表示 稳定 联盟 结构 。 

Cr 表示 博弈 中 联盟 的 通信 成 本 。 

T: 表示 服务 组 合 联盟 ; 被 请 求 消息 的 次 数 。 

G 表示 消息 在 服务 组 合 联 盟 i 中 传递 的 跳 数 。 

cl 表示 服务 组 合 联盟 i 请 求 消 息 的 数据 量 。 

ds 表示 服务 组 合 联盟 i 接收 消息 的 数据 量 。 


9.2 相关 工作 


在 云 平 台中 ,多 个 租户 共享 相同 的 虚拟 服务 ,一 方面 ,攻击 者 可 通过 Cross-VM 攻击 进 
入 共享 虚拟 资源 池 获 得 用 户 的 RSA 和 AES 密 钥 ; 另 一 方面 ,攻击 者 能 把 正常 的 虚拟 机 
(VM) 替 换 为 恶意 的 VM 为 用 户 所 使 用 站 ,这 对 第 三 方 的 云 计算 平台 安全 构成 了 威胁 。 
Zhang 等 人 "使 用 HomeAlone 工具 探测 共享 资源 池 中 的 异常 活动 。Santos 等 人 "为 
IaaS 服务 提出 了 信任 的 云 计算 框架 ,提供 了 封闭 的 云 服 务 执 行 环境 。 由 于 数据 中 心 网 络 预 
设 的 带宽 比 实际 需求 小 ,所 以 ,DoS 攻击 者 可 利用 数据 中 心 带 宽 的 不 足 通 过 攻击 影响 网 络 正 
常 通信 。 为 了 解决 该 问题 ,Liu 等 人 "3 提出 了 DoS 避免 策略 ,在 云 内 部 设置 带宽 监控 代理 ， 
一 旦 检测 到 带宽 下 降 , 监 控 代理 将 执行 应 用 迁移 .有效 地 使 用 服务 迁移 技术 处 理 泛 洪 攻击 。 
为 了 防御 DoS 攻击 ,还 有 基于 统计 、 数 据 挖掘 、 机 器 学 习 的 方法 ,这 些 方 法 对 于 动态 的 云 环 
境 不 具有 较 高 的 适应 性 。Girma 等 人 "9 提出 了 基于 焙 和 协 方差 矩阵 的 方法 分 析 DoS 攻 
击 , 解 决 了 当 DoS 攻击 呈 指 数 增长 时 的 攻击 探测 问题 。 在 文献 [424, 425] 中 ,为 了 阻止 DoS 
攻击 ,提出 了 可 信 的 云 存储 服务 模型 ,在 这 个 模型 中 ,为 了 不 使 数据 完整 性 受到 破坏 ,设计 了 
一 个 分 布 式 数据 存储 完整 性 审核 机 制 。Kim 等 人 在 文献 [426] 中 研究 云 平台 中 的 攻击 类 
型 ,基于 OpenStack 工具 仿真 和 测试 了 SQL 注入 、SYN-Flooding 攻击 等 。Arshad 等 人 在 
文献 L427] 中 对 虚拟 机 的 入侵 程度 提出 了 一 个 人 侵 破坏 评估 机 制 ,通过 评估 结果 来 决定 防御 
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策略 。Zhou 等 人 在 文献 [428] 中 针对 协调 攻击 问题 提出 了 协同 人 侵 检测 机 制 。 为 了 探测 不 
正常 的 活动 ,入 侵 检测 系统 能 实时 地 了 解 检测 对 象 的 状态 ,但 同时 降低 了 系统 性 能 ,Kwon 
等 人 在 文献 [429] 中 提出 了 入 侵 检测 的 自 相 似 性 测量 方法 ,通过 减少 人 侵 检测 系统 的 探测 频 
率 来 提高 人 侵 检 测 系统 的 性 能 。 在 文献 [430,， 431] 中 作者 研究 了 恶意 节点 的 信任 度 探测 和 
用 户 密码 管理 机 制 。Xie 等 人 在 文献 [432] 中 针对 用 户 浏览 Web 网 页 的 行为 提出 了 大 规模 
的 隐 式 半 马 尔 可 夫 链 探测 模型 ,还 有 研究 者 使 用 Zipf 律 测量 Web 页 之 间 的 相关 性 Cs 来 探 
测 用 户 浏览 网 页 的 行为 。 大 量 的 安全 防御 技术 并 不 能 为 云 平台 提供 预先 警告 ,Kholidy 等 
人 59 提 出 了 有 限 状态 马尔 可 夫 预 测 模型 ,使 用 自 适应 风险 评估 方法 预测 多 阶段 的 云 攻击 。 
Zhang 等 人 ce 构建 了 一 个 小 型 的 混合 云 系统 ,通过 设计 入 侵 检测 机 制 来 探测 冷 启 动 和 
USB 自 启动 攻击 。Chen 等 人 9 针对 多 虚拟 机 环境 恶意 端口 扫描 行为 ,通过 抽取 日 志 中 的 
行为 记录 进行 人 侵 行为 分 析 , 使 用 攻击 模型 解决 了 攻击 行为 识别 问题 。 

面 对 云 计算 平台 中 各 种 复杂 的 攻击 行为 ,很 难 设计 出 满足 一 切 需求 的 防御 机 制 ,Fan 等 
人 9 站 提出 了 随机 博弈 模型 描述 云 计算 中 的 攻击 防御 行为 ,使 用 Petri 网 验证 了 随机 博弈 模 
型 进行 攻击 防御 响应 的 正确 性 。Bedi 等 人 5e9 针 对 不 同 节点 共享 虚拟 机 服务 队列 攻击 提出 
了 基于 队列 攻击 的 防御 机 制 ,但 不 能 根据 攻击 者 的 恶意 行为 变化 防御 策略 。Varadarajan 等 
人 5 中 针对 公共 云 中 的 虚拟 机 资源 攻击 提出 了 修改 虚拟 机 负载 的 防御 机 制 , 但 只 是 修改 了 
虚拟 机 负载 ,并 没有 结合 虚拟 机 负载 均衡 米 考 虑 防御 机 制 。Zhou 等 人 中 针对 云 计算 中 的 
调度 器 攻击 提出 了 阻止 攻击 者 唤醒 虚拟 机 的 方法 ,减少 了 攻击 者 对 虚拟 资源 的 占用 。 然 而 ， 
调度 器 作为 虚拟 网 络 中 的 协调 节点 ,如 果 攻击 者 采取 的 是 直接 使 调度 器 出 现 故障 的 攻击 行 
动 ,那么 ,阻止 攻击 者 并 唤醒 虚拟 机 的 防御 机 制 将 变 得 无 效 。Zhang 等 人 中 针对 侧 信道 攻 
击 [四 使 用 Viekrey-Clarke-Groves 博弈 进行 虚拟 迁移 。 综 上 所 述 ,恶意 的 攻击 者 可 能 在 云 
计算 系统 的 不 同 层 上 发 起 攻击 ,在 云 计算 体系 的 多 层 结构 中 ,基础 设施 ,平台 和 应 用 均 将 遵 
受 不 同 程度 的 安全 威胁 。 

与 以 上 的 相关 工作 相 比 ,本 章 主 要 讨论 对 传 感 云 服务 系统 的 容量 攻击 防御 问题 ,提出 了 
随机 演化 联盟 博弈 的 框架 米 设 计 虚 拟 传 感 云 服务 组 合 的 可 靠 安全 的 防御 策略 ,首先 在 传 感 
云 环境 下 为 虚拟 传 感 云 服务 网 络 定义 了 一 个 防御 模型 ,采用 联盟 结构 描述 虚拟 传 感 云 服务 
网 络 动态 的 通信 场景 。 为 了 缩短 联盟 形成 的 时 间 和 增加 虚拟 传 感 云 服务 组 合 的 可 靠 性 , 运 
用 Barabasi-Albert(BA) 模 型 形成 可 靠 的 联盟 。 虚 拟 传 感 节 点 在 联盟 中 以 存储 一 转发 的 方 
式 合作 分 发 传 感 数 据 ,为 了 破坏 传 感 数据 正常 的 分 发 ,恶意 的 攻击 者 通常 在 联盟 中 发 起 资源 
攻击 ,导致 大 量 的 虚拟 传 感 节 点 变 得 不 可 靠 。 针 对 此 问题 ,本 章 随后 基于 Q-learning 和 马尔 
可 夫 链 技术 开发 了 一 个 防御 框架 ,把 攻击 者 和 防御 者 之 间 的 策略 变化 模型 化 为 一 个 随机 博 
弈 ,使 用 马尔 可 夫 链 技术 分 析 了 它们 之 间 的 交互 博弈 过 程 。 本 章 提 出 的 随机 演化 联盟 博弈 
模型 使 得 虚拟 传 感 云 服务 网 络 能 有 效 地 防御 恶意 攻击 者 的 容量 攻击 。 


9.3 ”虚拟 传 感 云 服务 安全 防御 框架 


9.3.1 虚拟 传 感 云 服务 攻击 模型 
传 感 云 框架 使 用 数据 中 心 的 资源 分 发 服务 , 当 端 用 户 请 求 服务 时 ,虚拟 传 感 节点 自动 组 
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成 服务 组 合 提供 给 端 用 户 (End User 。 由 于 传 感 云 部 署 在 开放 平台 中 ,恶意 用 户 的 请 求 对 
传 感 云 的 安全 构成 了 威胁 。 图 9-1 给 出 了 虚拟 传 感 云 服务 攻击 模型 。 在 模型 中 ,物理 传 感 
器 节点 通过 Map 函数 映射 成 为 虚拟 传 感 节点 ,这 些 虚拟 传 感 节点 在 演化 联盟 形成 机 制 的 作 
用 下 进行 服务 组 合 。 端 用 户 通过 移动 设备 接 入 传 感 云 平台 请 求 数据 ,而 恶意 用 户 (Malicious 
User) 通 过 扫描 虚拟 传 感 云 服务 漏洞 ,攻击 其 容量 ,从 而 使 得 服务 组 合 失败 或 可 用 性 降低 。 
恶意 用 户 恶意 用 户 
Q O 


vi 


图 9-1. 虚拟 传 感 云 服务 攻击 模型 


定义 9-1 虚拟 传 感 云 服 务 网 络 由 去 用 户 和 云 服务 提供 者 组 成 ,用 一 个 三 元 组 G'— CI. 
E, ORR HP: 
* IS{L|IKi<S| I) RR EMERI AREA erp e dL RS RE XN L= (nts, 
exts capacity) ,ints 表示 向 内 提供 服务 ,exts 表示 向 外 提供 服务 。capacity 表示 虚 
拟 传 感 节点 可 用 容量 ,如 虚拟 CPU ,虚拟 内 存 .虚拟 带宽 等 。 
。 = 二 (es | ey € LI; 1 入 ij 入 | 民 |} 表 示 虚 拟 传 感 云 服 务 网 络 中 的 虚拟 链 路 集合 。 其 
中 , 边 ej 二 (1i,1j,QoS;(1)) 表 示 虚 拟 传 感 节 点 I; 和 了 ; 之 间 建 立 的 虚拟 链 路 ,该 链 
路 在 时 刻 上 的 服务 质量 为 QoSi (1)。QoSs CO = (COD GO) D (2$ Py CO Ag GO) Cy 
COD ,其 中 ,D5(O 表 示 虚 拟 传 感 节点 在 正常 通信 情况 下 的 通信 时 间 ; DG CO RIS TE 
受 攻击 情况 下 的 通信 时 间 ; Pa (?) 表 示 成 功 防御 的 概率 ; Ag (1) 表 示 成 功 防 御 后 获 
得 的 收益 ; Cy (DO 表示 虚拟 链 路 (天 ,五 ) 在 时 刻 上 可 用 的 容量 。 
服务 组 合 S — (Os 11:ET,1>s} 表 示 由 虚拟 传 感 节点 组 成 的 服务 组 合 的 集合 。 
其 中 ,#4 二 (Ti,fi,QoSi(st)) 表 示 虚 拟 传 感 节点 L 可 以 提供 功能 为 fi; 的 服务 。 广 一 
Ufa s er) ,其 中 ,f。 表 示 缓 存 数据 功能 , /表示 转发 数据 功能 。QoS;(s4) 二 (Pi(s4)， 
AGD ,Ci(st)) 表 示 虚 拟 传 感 节点 提供 的 服务 st 的 服务 质量 ,其 中 ,Pi(s) 表 示 使 
用 #4 服务 时 防御 成 功 的 概率 , 且 


Piss) = 


DLW 
DE + D3 
Ai(st) 表 示 使 用 #4 服务 时 防御 的 收益 ; Ci GO Ro. 1; 使 用 s4 服 务 时 提供 的 容量 。 


(9-1) 
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为 了 防御 攻击 者 的 攻击 ,保证 可 靠 的 虚拟 服务 组 合 ,虚拟 传 感 云 服 务 提供 者 的 最 优 策略 
是 最 大 化 服务 质量 。 考 虑 私有 云 和 公有 云 的 混合 传 感 云 环境 ,除了 虚拟 传 感 云 服务 提供 者 
要 组 合成 内 部 服务 为 私有 云 用 户 提供 服务 外 ,还 要 组 合成 外 部 服务 为 公有 云 用 户 提供 服务 。 
因此 ,优化 目标 表示 为 
max >) (QoSaz, 十 QoSsy) 


sel 


s.t. at y0G, < > Cims: 20.320 (9-2) 
sel ijel 


式 中 ,QoSi 为 虚拟 传 感 云 内 部 服务 提供 者 的 服务 质量 ; QoS& 为 虚拟 传 感 云 外 部 服务 提供 
者 的 服务 质量 ; z, 为 虚拟 传 感 云 内 部 服务 提供 者 的 数量 ; y 为 虚拟 传 感 云 外 部 服务 提供 者 
的 数量 ; G 为 每 个 传 感 云 服 务 提供 者 分 配 的 容量 ; Ci, 为 虚拟 链 路 es 在 联盟 mE€M 中 可 用 
的 容量 ,可 表示 为 

Cj,» = (Cj, — maxC},)* (9-3) 
式 中 ,C8 s 29 HE SO BEB e; CER BL m € M 中 正常 传输 时 的 容量 ; C$. 为 虚拟 链 路 es 在 受 攻击 
者 kEK 攻击 时 的 容量 。 


9.3.2 虚拟 传 感 云 服务 安全 防御 框架 


攻击 者 和 防御 者 对 虚拟 传 感 云 服 务 的 攻击 防御 决策 问题 可 以 模型 化 为 一 个 随机 博弈 过 
程 ,攻击 者 和 防御 者 之 间 的 交互 过 程 可 以 模型 化 为 一 个 马尔 可 夫 决 策 处 理 过 程 ,攻击 者 和 防 
御 者 之 间 以 离散 的 时 刻 进行 交互 ,在 每 一 个 时 刻 ,演化 联盟 中 的 虚拟 传 感 云 服务 提供 者 与 其 


他 联盟 成 员 合作 形成 联合 防御 行动 ,其 典型 的 目 标 是 最 大 化 其 收益 Yr, 其 中 ,ri 表示 在 


时 刻 t 的 收益 ,Y (0 < y'« D 表示 在 时 刻 1 的 贴现 因子 ,用 于 平衡 短期 收益 与 长 期 收益 。 
定义 9-2 ”虚拟 传 感 云 服 务 系统 自 适应 防御 框架 为 一 个 五 元 组 (S', N',A5,P,U)， 
其 中 ， 


S 表示 虚拟 传 感 云 服务 在 时 刻 的 状态 集合 。 
和 表示 博弈 参与 者 集合 。 
An 表示 博弈 参与 者 i 在 联盟 mE€M 中 可 用 的 行动 集合 。 
也 表示 虚拟 传 感 云 服务 将 时 刻 : 的 状态 集合 S 转换 为 时 刻 1 十 1 的 状态 集合 SH 
转换 概率 。 

QU 表示 攻击 者 和 防御 者 获得 的 收益 。 

图 9-2 描述 了 虚拟 传 感 云 服务 提供 者 自学 习 的 自 适应 防御 框架 。 当 攻击 者 采用 行动 
攻击 虚拟 传 感 云 服务 时 ,虚拟 传 感 云 服 务 系统 以 概率 p CST |S',ai) 从 状态 S 转换 为 
5S 状态 ,攻击 者 从 而 获得 了 收益 u(s',ah)。 虚 拟 传 感 云 服务 系统 上 的 监控 代理 监测 到 这 
种 状态 变化 后 通知 虚拟 传 感 云 服 务 提供 者 。 多 个 虚拟 传 感 云 服务 提供 者 通过 自学 习 后 形成 
联盟 获得 收益 wu*(s',as) ,再 求 得 最 优 策略 (0,as) ,并 根据 该 最 优 策略 以 相应 的 概率 值 采取 
行动 a;' 进行 防御 ,使 得 虚拟 传 感 云 服务 系统 以 概率 pCSU | S a BUG S FE SOR 
态 , 虚 拟 传 感 云 服务 系统 从 而 获得 收益 us aD. 
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自 适应 防御 优化 机 制 


攻击 者 


虚拟 传 感 
服务 提供 者 


图 9-2 基于 自学 习 的 自 适应 防御 框架 


u*(s', a) 


(8. dy) 


9.3.3 基于 BA 的 随机 演化 联盟 博弈 模型 


一 个 社会 合作 网 络 通常 用 节点 和 连接 度 信息 进行 描述 ,在 本 章 建立 的 演化 联盟 博弈 中 ， 
将 每 个 虚拟 传 感 节点 看 作 一 个 社会 网 络 节点 ,将 虚拟 传 感 节点 间 的 联系 看 作 共享 容量 度 。 
因此 ,本 章 将 利用 BA 无 标 度 网 络 模型 描述 整个 虚拟 传 感 云 服 务 系统 的 网 络 结构 。 设 该 传 
感 云 服务 系统 中 有 N 个 博弈 参与 者 ,用 图 GO EOD f TU v € V 表示 参与 者 1, 无 向 边 efE 
E 表示 参与 者 ; 和 j 之 间 具 有 合作 关系 。C; 一 AR, 表示 参与 者 i 能 为 其 邻居 节点 提供 的 容 
量 , 其 中 i; AW ER: 为 参与 者 i 能 提供 的 资源 。 在 虚拟 传 感 云 服务 系统 的 网 络 模型 中 ， 
每 个 参与 者 都 有 两 种 可 配置 的 策略 , 亚 二 {co,de) ,其 中 ,co 表示 合作 形成 联盟 ,de 表示 没有 
能 力 合作 形成 联盟 。 参 与 者 i 总 是 倾向 于 和 可 靠 的 虚拟 传 感 节 点 合作 形成 联盟 。 
定义 9-3 联盟 中 虚拟 传 感 节 点 i 的 可 靠 性 配置 定义 为 y; 王 (Ci,Pi,Dmi,2i) ,其 中 ， 
。 C, 表示 参与 者 i 能 为 其 邻居 节点 提供 的 容量 。 
。P, = Ci/ >)C; 表示 参与 者 i 选择 参与 者 j 作为 合作 者 形成 联盟 的 选择 概率 ,其 中 ,C， 
表示 虚拟 传 感 节点 i 的 邻居 节点 j 提供 的 容量 .在 联盟 演化 过 程 中 ,每 个 参与 者 根据 
自己 的 策略 更 新 规则 更 新 它 的 可 靠 性 配置 ,经 过 迭代 形成 可 靠 的 联盟 。 当 参与 者 i 更 
新 它 的 策略 时 , 它 首先 将 随机 地 选择 一 个 邻居 节点 ,如果 Pj > Pi, 参 与 者 i 将 以 概 
率 ping 复制 7 的 策略 ,其 中 


一 1 
1 — expl CP; — P;)/z] kdo 


式 中 ,z 为 描述 虚拟 机 硬件 和 软件 的 环境 变量 , 它 影 响 策略 的 复制 和 节点 间 的 合作 率 。 联 盟 
参与 者 之 间 的 合作 率 反 映 了 联盟 向 稳定 状态 收敛 的 时 间 , 合 作 率 越 大 意味 着 联盟 状态 收敛 
于 稳定 的 时 间 越 短 。 联 盟 的 合作 率 定义 为 


v= 1-i)«o» (9-5) 
Y 
式 中 ,(c) 为 稳定 联盟 的 平均 容量 ; a 为 参与 者 的 容量 因子 ,>0 表示 参与 者 i 具有 较 高 的 容 


量 , 能 提供 较 好 的 服务 质量 ,而 a<0 表示 参与 者 i 具有 较 低 的 容量 ,提供 较 差 的 服务 质量 。 
。 DD 表示 在 联盟 m 中 参与 者 i 的 收益 ,定义 为 
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[ei 
i+ ML)x——A— $1 
p, - ; Ci Yc: (9-6) 
0. 其 他 
式 中 ， 
r= (9-7) 
Cj 


为 参与 者 能 提供 的 共享 容量 ; L 为 参与 者 i 的 邻居 节点 提供 的 共享 容量 ; CI 为 参与 者 i 
在 容量 因子 a 的 影响 下 提供 的 共享 容量 ; C: 为 参与 者 i 的 邻居 节点 在 容量 因子 a 的 影响 下 
提供 的 共享 容量 ; p=1 表示 参与 者 i 与 邻居 节点 合作 。 
。 Z; 表示 参与 者 i 当前 的 负载 。 负 载 与 容量 之 间 的 关系 可 表示 为 
Zi =% (9-8) 
式 中 ,Zi 为 在 时 刻 : 参与 者 i 的 负载 能 力 ; 8 为 负载 因子 。 如 果 参 与 者 i 当前 的 负载 超过 了 
预先 定义 的 阔 值 w，, 则 参与 者 ;站 将 不 能 被 选择 跟 邻 居 节 点 形成 联盟 ,参与 者 ;成 为 联盟 成 员 
的 概率 为 
_ Zi 
[acz >w:) = G (8:95 
bii xo) = Zi 
算法 9-1 基于 BA 模型 的 演化 联盟 形成 算法 。 
l. 初始 化 联盟 集合 M;— OS .temp— Ø; //temp 表示 虚拟 传 感 节点 的 临时 集合 
2. FOREACH 虚拟 传 感 节 点 iC D 
3. temp=tempU {i}; 
4. FOREACH 虚拟 传 感 节点 JE INtemp 
5 IF (Z;<w;) AND (C;>$i) AND (D;>N) 
//o; 表示 邻居 节点 j AYR MEL: $; 表示 邻居 节点 j 的 容量 阐 值 ; 
/ /Aj 表示 邻居 节点 7 的 收益 阔 值 。 


6 虚拟 传 感 节 点 j 根据 概率 P; 加 入 虚拟 传 感 节点 i 的 联盟 集合 M. 
7 M;=M,.U{(i.j)). 

8. M;-Mj;U(G.D). 

9 ENDIF 

10. IF (P,>P,) 

11. 参与 者 j 根据 p;-; 复 制 虚拟 传 感 节点 i 的 策略 。 

12. ENDIF 

13. ENDFOR 

14. ENDFOR 


15. 使 用 联盟 集合 M, BEA Gwe), 
16. 设置 图 的 顶点 集 w—I. 
17. RERE =U" M. 
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通过 基于 BA 模型 的 联盟 形成 算法 可 以 过 滤 不 可 靠 的 虚拟 传 感 节点 ,形成 可 靠 的 联盟 。 
然而 ,在 联盟 工作 阶段 ,由 于 已 选择 的 邻居 节点 会 受到 攻击 者 的 攻击 ,使 得 其 工作 状态 变 得 
不 可 靠 ,因此 ,参与 者 将 重新 选择 虚拟 传 感 节点 组 合成 可 靠 的 联盟 。 把 由 BA 模型 形成 的 可 
靠 联 盟 作为 一 个 虚拟 的 传 感 云 服务 为 私有 云 和 公有 云 用 户 提供 服务 ,针对 恶意 用 户 发 起 的 
容量 攻击 建立 随机 演化 联盟 博弈 模型 进行 防御 。 


9.4 虚拟 传 感 云 服务 安全 博弈 模型 


9.4.1 随机 演化 联盟 博弈 模型 的 防御 策略 分 析 


为 防御 虚拟 传 感 云 服务 系统 的 攻击 者 , 本章 提 出 了 一 个 随机 演化 联盟 博弈 模型 
(Stochastic Evolutionary Coalition Game,SECG)。 在 虚拟 传 感 云 服务 系统 中 ,攻击 者 实施 
服务 攻击 的 目的 是 使 虚拟 资源 耗 尽 ,从 而 导致 服务 出 现 异常 。 而 恶意 用 户 对 虚拟 传 感 节点 
发 起 容量 攻击 的 目的 是 阻止 正常 用 户 使 用 传 感 云 服务 系统 的 虚拟 计算 资源 。 这 些 受 攻击 的 
虚拟 传 感 节点 为 私有 云 和 公有 云 提供 服务 ,因此 , 传 感 云 服务 系统 的 中 心 节点 通过 执行 动态 
资源 分 配 可 以 缓解 潜在 的 攻击 ,防御 者 还 可 以 通过 动态 的 容量 分 配 阻 止 攻击 者 。 但 是 ,使 用 
容量 分 配 来 设计 SECG 模型 中 的 防御 策略 时 应 考虑 以 下 两 个 方面 : 

(1) 参与 者 在 形成 联盟 时 要 平衡 内 部 服务 和 外 部 服务 的 资源 分 配 比 例 。 传 感 云 服 务 系 
统 接 收 的 外 部 服务 的 请 求 数 一 般 大 于 内 部 服务 的 请 求 数 。 这 样 , 外 部 服务 的 请 求 数 越 多 ,就 
需要 分 配给 外 部 服务 越 多 的 容量 ,从 而 导致 只 能 给 内 部 服务 分 配 较 低 的 容量 ,此 时 ,就 需要 
平衡 分 配 内 部 服务 和 外 部 服务 之 间 的 容量 。 

(2) 在 面 对 攻 击 者 变化 的 攻击 策略 时 ,参与 者 需要 能 自 适应 地 调整 防御 策略 。 这 是 由 
于 攻击 者 可 能 会 在 传 感 云 服务 系统 上 部 署 资源 监控 代理 ,根据 监控 代理 获得 的 传 感 云 服务 
系统 资源 状态 和 防御 者 的 防御 策略 来 动态 调整 其 攻击 策略 。 因 此 ,防御 者 不 能 预先 假设 攻 
击 者 采取 固定 的 攻击 策略 ,而 应 该 通过 SECG 模型 来 动态 捕获 攻击 者 的 策略 。 

通过 以 上 分 析 可 以 得 出 ,防御 者 的 目标 是 通过 使 用 随机 容量 分 配 策略 和 形成 演化 联盟 
来 提高 虚拟 传 感 节点 的 可 靠 性 和 虚拟 传 感 节点 服务 组 合 的 服务 质量 ,而 恶意 攻击 者 的 目标 
是 通过 攻击 虚拟 机 的 资源 来 降低 虚拟 传 感 节点 的 可 靠 性 和 服务 组 合 的 质量 。 它 们 具有 相反 
的 目标 ,因此 ,可 以 把 它们 之 间 动 态 的 交互 过 程 模型 化 为 一 个 非 合 作 的 零 和 博弈 ,把 虚拟 传 
感 云 服 务 组 合 看 作 一 个 联盟 ,把 虚拟 传 感 节点 看 作 防御 者 ,而 把 恶意 用 户 看 作 攻击 者 。 此 
外 ,虚拟 机 的 容量 .虚拟 传 感 去 服务 组 合 的 服务 质量 .联盟 结构 及 防御 者 和 攻击 者 的 策略 是 
随时 间 变 化 的 ,所 以 ,把 虚拟 传 感 云 服 务 系 统 的 安全 防御 机 制 形 式 化 为 一 个 随机 演化 联盟 博 


9.4.2 随机 演化 联盟 博弈 模型 的 形式 化 定义 


定义 9-4 随机 演化 联盟 博弈 模型 结合 了 随机 博弈 和 演化 联盟 博弈 两 种 博弈 类 型 。 它 
可 定义 为 一 个 七 元 组 , 即 
Q = (N.V.S.A.0.P. D) (9-10) 
其 中 : 
*ON 表示 理性 的 虚拟 传 感 节点 组 成 的 博弈 参与 者 集合 ,其 中 包含 N 个 理性 的 虚拟 传 
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感 节点 (博弈 参与 者 ) 。 
更 一 {covde} 表 示 虚 拟 传 感 节点 类 型 集合 ,其 中 co 表示 合作 形成 联盟 ,de 表示 不 具 
有 可 靠 的 能 力 合作 形成 联盟 。 

S 二 S*XS' 表 示 随机 演化 联盟 博弈 状态 空间 的 笛 卡 儿 积 ,其 中 ,S* 表示 随机 博弈 的 
状态 空间 ,S' 表 示 演 化 联盟 的 状态 空间 。 

A 二 aXa 表 示 随 机 演化 联盟 博弈 参与 者 的 行动 状态 空间 的 竺 卡 儿 积 ,其 中 ,a= (an, 
…,as) 表 示 随 机 博弈 防御 者 的 行动 集合 ,其 中 ,NN 表示 随机 博弈 参与 者 对 于 攻击 者 
动态 变化 的 攻击 策略 采取 随机 防御 行动 的 个 数 ; # 二 {a1,…,aR) 表 示 演 化 联盟 参与 
者 的 行动 集合 ,其 中 ,N 表示 演化 联盟 参与 者 的 行动 个 数 。 

6 一 6; X5 表 示 随 机 演化 联盟 博弈 的 收益 。6;:S Xa X e X a >R 表示 随机 博弈 
参与 者 的 收益 ,R" 表示 随机 博弈 参与 者 的 收益 函数 。5:S"XaiX… XaR 一 R" 表示 
演化 联盟 博弈 参与 者 的 收益 ,R' 表示 演化 联盟 博弈 参与 者 的 收益 函数 。6.(M, i) 
表示 在 时 刻 :防御 行动 和 演化 联盟 获得 的 平均 收益 。 芒 一 [ 届 ,… en ], 玉 表示 虚拟 
传 感 节点 ; 与 可 靠 的 虚拟 传 感 节点 j 合作 形成 联盟 。 用 整个 联盟 的 平均 收益 表示 单 
个 节点 期 望 的 收益 ,结合 式 (9-3) ,虚拟 传 感 节点 ;的 期 望 收益 为 


一 MyeO yw) (9-11) 
1=0 
其 中 ， 
ò: (M, h) = ECCh mM, it) — Ca CM ha) ] 
P 
= M pl pints) (CHS CM i) — Cy& CM qa) ) (9-12) 
q71 


式 中 ,mn 为 在 联盟 M 中 节点 i 的 邻居 节点 的 可 靠 度 ; p? Omo) HEKA M 中 节点 i 与 其 
他 联盟 成 员 合作 的 可 靠 性 概率 ,定义 为 
PEGI) = I PjG—1Ag-gj) (9-13) 
jeMNGU) 
式 中 ,P; 为 虚拟 传 感 节点 i 观测 到 邻居 节点 7 为 可 靠 节点 的 概率 ; m; 为 虚拟 传 感 节点 与 邻 
居 节 点 j 合作 ; p 为 邻居 节点 7 的 可 靠 度 。 虚 拟 传 感 节 点 i 的 期 望 容量 效用 函数 CY% CM - 
JO EL 
i Zilt)B, eg >ON xy =1 
CHM, yi) -1 (9-14) 
0. 其 他 
式 中 ,eof 二 0 表示 虚拟 传 感 节 点 i 与 邻居 节点 j 之 间 存 在 一 条 可 靠边 ; cu = 1 表示 虚拟 传 感 
节点 1 与 邻居 节点 j 通信; 当 两 个 虚拟 传 感 节点 通信 时 ,所 需 动态 容量 被 分 配 , 当 虚拟 传 感 
节点 i 受 攻击 时 ,平均 容量 损失 函数 C34 OM c BH 
OM gid = Niemi, IMI>1 
lo. 其 他 
式 中 ,|M| 为 联盟 M 中 虚拟 传 感 节点 的 个 数 ; ch COM) 为 联盟 M 中 虚拟 链 路 ej 受 攻击 者 
攻击 时 的 容量 损失 。 
。 P= 二 pXPp 表 示 随 机 演化 联盟 博弈 的 传递 概率 。p:S”XalX…Xan 一 A(S") 表 示 随 


(9-15) 
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机 博弈 的 传递 概率 ,A(S*) 表 示 状 态 空间 S* 的 概率 分 布 ; p:S Xai X X ago 
A(S') 表 示 演 化 联盟 博弈 的 传递 概率 .A(S") 表 示 状 态 空间 5S 的 概率 分 布 。 

。 户 表示 演化 联盟 的 偏好 。 例 如 ,Mi > :iM 表示 参与 者 i 倾向 于 加 入 联盟 Me 并 能 获 
得 较 高 收益 和 最 优 策略 。 


9.4.3 ”随机 演化 联盟 博弈 的 状态 和 行动 


假设 在 虚拟 传 感 云 服务 系统 中 , N 个 虚拟 传 感 节点 部 署 在 虚拟 服务 器 上 。 每 个 虚拟 伟 
感 节点 具有 可 靠 和 不 可 靠 两 种 状态 ,用 办 表示 虚拟 传 感 节点 的 状态 ,其 中 , 叉 二 1 表示 虚拟 
传 感 节点 在 时 刻 上 处 于 可 靠 的 活跃 状态 ,此 时 博弈 参与 者 可 以 把 它 作 为 合作 者 组 合成 服务 ， 
ih =O 表示 虚拟 传 感 节点 在 时 刻 上 处 于 不 可 靠 状 态 , 此 时 博弈 参与 者 不 能 把 它 作 为 合作 
者 组 合成 服务 。 虚 拟 传 感 节点 的 容量 服务 组 合 的 QoS 随时 间 变 化 ,合作 和 防御 策略 也 随时 
间 变 化 。 因 此 ,随机 演化 联盟 博弈 可 以 模型 化 为 一 个 有 限 状 态 的 马尔 可 夫 链 (FSMC) ,这 样 
虚拟 传 感 节点 的 阶段 防御 的 收益 可 以 通过 FSMC 来 描述 。 同 时 也 注意 到 虚拟 传 感 节点 获 
得 的 容量 收益 依赖 于 自身 的 可 靠 状态 。 因 此 ,为 了 增加 容量 收益 ,虚拟 传 感 节点 更 倾向 于 选 


择 可 靠 的 节点 合作 形成 联盟 。 在 时 刻 : 随机 演化 联盟 博弈 虚拟 传 感 节点 状态 表示 为 S" 一 


{Sham e Sh m) JEP, Sim = Ga Coss Hia ) aos BRERA t 联盟 m 中 虚拟 传 感 节点 i 
的 可 靠 性 ,Ci 表示 在 时 刻 1 联盟 m 中 虚拟 传 感 节点 i 的 容量 , Hi 表示 在 时 刻 1 受 攻击 联 
盟 m 中 虚拟 传 感 节点 i 的 容量 。 

虚拟 传 感 节点 由 不 可 靠 状态 转移 到 可 靠 状态 的 概率 为 

P a+) = pifia = 1,8. = E | gin =0,Cn = co) = (1— pp (9-16) 

虚拟 传 感 节点 由 可 靠 状态 转移 到 不 可 靠 状态 的 概率 为 

PO" t+ 1) = plia = 0.CH = g—co | qm = 1+Cim = co) = pi(1— pf) (9-17) 
式 中 ,pf 为 虚拟 传 感 节 点 i 处 于 不 可 靠 状 态 的 概率 ; g 为 转移 到 可 靠 状态 时 的 容量 收益 ; co 
为 转移 到 不 可 靠 状 态 时 的 容量 , 且 co 二 $, 其 中 ,$ 表示 虚拟 传 感 节 点 i ARTE BEL pf 为 虚 
拟 传 感 节点 i 获得 收益 的 概率 。 由 式 (9-16) 和 式 (9-17) 可 以 看 出 ,虚拟 传 感 节点 可 靠 状 态 
的 变化 影响 了 服务 组 合 的 容量 和 服务 质量 。 如 果 一 个 联盟 博弈 参与 者 选择 状态 概率 为 p? 
的 虚拟 传 感 节点 来 组 合 服务 ,那么 ,组 合 后 的 服务 组 合 质量 将 降低 ,同时 也 不 能 保证 虚拟 传 
感 云 服务 的 安全 性 。 因 此 ,使 用 随机 博弈 和 演化 联盟 博弈 模型 化 虚拟 传 感 云 服务 的 安全 防 
御 为 一 个 两 阶段 博弈 来 研究 动态 的 攻击 防御 机 制 。 在 面 对 攻击 者 时 ,联盟 博弈 参与 者 选择 
虚拟 传 感 节点 进行 合作 ,此 时 不 仅 考虑 虚拟 传 感 节点 的 可 靠 性 ,而 且 监测 攻击 者 攻击 策略 的 
变化 。 对 于 攻击 者 而 言 ,如 果 攻 击 者 认为 联盟 参与 者 选择 了 一 个 可 靠 的 虚拟 传 感 节点 形成 
联盟 , 则 它 将 选择 一 个 以 前 未 被 攻击 的 虚拟 传 感 节点 发 起 攻击 行动 。 当 一 个 虚拟 传 感 节点 
通过 防御 策略 分 配 了 足够 的 容量 时 , 它 将 以 传递 概率 (1 一 闻 )28 从 不 可 靠 状 态 切换 到 可 靠 
状态 ,然后 联盟 博弈 参与 者 选择 这 个 可 靠 的 节点 作为 联盟 成 员 来 形成 服务 组 合 。 

定义 9-5 在 时 刻 1, 随机 演化 联盟 博弈 服务 组 合 的 状态 定义 为 SS {Se S) ,其 
P, Sin = Cin Cis * Hn ,日 ex) 表示 与 虚拟 传 感 节 点 i 的 可 靠 性 和 容量 相关 的 状态 ,其 中 ， 
Hia FI Hox 分 别 表示 在 时 刻 1 服务 组 合 m 受到 攻击 的 内 部 和 外 部 服务 数 。 
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定义 9-6 在 时 刻 1, 联 盟 博弈 参与 者 的 防御 行动 集合 定义 为 a 二 (ai,a2,…,az), 其 
TI pai = (aiin «ien + ising + Giver?) s iin FI ai,en 表 示 选 择 未 攻击 的 虚拟 传 感 节 点 i 加 入 联盟 后 
分 别 分 配 的 内 部 和 外 部 容量 。at,inz 和 ai,ewz 表 示 选 择 以 前 受 攻击 的 虚拟 传 感 节 点 i 加 入 联盟 
后 分 别 分 配 的 内 部 和 外 部 容量 。 

定义 9-7 在 时 刻 :, 攻 击 者 的 行动 集合 定义 为 ai= (ainsana Ta) HEP ain = 
Cata + Qing) + da 和 af 分 别 表 示 在 时 刻 上 攻击 者 分 别 选 择 以 前 未 攻击 和 受 攻 击 的 虚拟 传 感 
节点 i 攻击 其 容量 。 

以 上 定义 的 行动 选择 集合 给 出 了 攻击 者 和 联盟 博弈 参与 者 彼此 间 不 确定 的 攻击 和 防御 
策略 ,其 中 ,防御 者 的 行动 随 着 随机 演化 联盟 博弈 的 状态 发 生变 化 , 接 下 来 将 使 用 马尔 可 夫 
链 技术 来 分 析 联 盟 参与 者 的 博弈 状态 。 


9.4.4 基于 马尔 可 夫 链 的 随机 演化 联盟 博弈 状态 分 析 


在 时 刻 t 虚拟 传 感 云 服务 组 合 联盟 m 面 对 攻 击 者 攻击 时 ,联盟 闷 选 择 的 行动 为 ww 一 
Camini exl * sint * Amex )， 其 中 ,amim 和 amon 表示 联盟 m 分别 选择 未 攻击 的 内 部 服务 和 外 
部 服务 作为 服务 提供 者 。awim 和 a%,ewz 表 示 联 盟 mm 分 别 选 择 以 前 受 攻 击 的 内 部 服务 和 外 部 
服务 作为 服务 提供 者 。 在 时 刻 1 攻击 者 对 联盟 m LA EIE asa = Cama samne) ,其 中 
anm FAL in ao BEA TE TT At 攻击 者 分 别 对 联盟 wm 中 以 前 未 受 攻 击 和 受 攻 击 的 服务 发 起 攻击 行 
动 。 由 于 在 下 一 个 时 刻 :十 1, 内 部 或 外 部 服务 将 受到 攻击 ,联盟 参与 者 要 从 以 前 未 攻击 的 
或 受 攻击 的 虚拟 传 感 节点 集合 中 选 出 联盟 成 员 组 成 服务 组 合 。 在 时 刻 上 未 受 攻击 的 虚拟 传 
感 云 服务 在 提供 内 部 服务 或 外 部 服务 时 受 攻击 的 概率 为 
am,inl 


Ci 


t 3 e 
Amexl | |Cm,1 一 Gminl — Qmvexl 


Ca 


amna — Cin un Cia | (9-18) 
Cm,l 
d 
式 中 ,Cin 、Cew 为 在 时 刻 :未 受 攻击 的 虚拟 传 感 节点 分 别提 供给 内 部 服务 和 外 部 服务 的 容量 
数 ; Cho 、Cew 为 在 时 刻 t 受 攻击 的 虚拟 传 感 节点 在 时 刻 : 十 1 转换 为 可 靠 状态 能 分 别提 供给 
内 部 服务 和 外 部 服务 的 容量 数 ; Hus = Cia + Cio s Hime = Coa + Cors 08a m ci — H min — 
Hs,ex 表 示 未 攻击 的 容量 ,其 中 ,ci 为 虚拟 传 感 云 服务 的 总 容量 。 

类 似 地 , 受 攻击 的 虚拟 传 感 节点 在 时 刻 上 提供 内 部 服务 或 外 部 服务 时 受 攻击 的 概率 为 
pal 


Cte 


DOC «Cea. || Hinin s Hinsex sam samm ) 


t t t t 
m ind Cm,2 — Amin? ~ Amex? 


Cio 


amne — Cia — Cen 
Cm,2 
[m 
RP ena = Hin 十 Hex 表 示 虚 拟 传 感 云 服务 组 合 联盟 m 被 攻击 的 容量 。 


在 演化 联盟 中 ,每 个 参与 者 采取 的 防御 行动 是 独立 的 ,并 且 在 攻击 者 的 攻击 下 其 状态 是 
动态 变化 的 ,N 个 虚拟 传 感 节点 组 成 的 M 个 服务 组 合 的 随机 博弈 状态 传递 概率 表示 为 


PCi s Coe | Himin s Hp xam sam) (9-19) 


M N 
POS | SH, ai) = TL som cas | Hia Hex sO hn) X >) Gs CH | icio} 
m=1 i=1 


(9-20) 
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式 中 ， 
PCA iin Hes | Hs s Hie san saa) = pC Cin +Coa | Hinin Hiner + Qin ndi) 
X pC Cin Coo | Hiis Hinvex+QmsQmnz) (9-21) 
bim «CE | fam + Chm BE HISRC9- 16) ASE (9-17) RAF. RAD RE 5 HE RD 9 467 
动 的 同时 ,联盟 参与 者 选择 可 靠 的 虚拟 节点 形成 新 的 联盟 使 得 联盟 不 断 演化 。 联 盟 结构 从 
状态 M 转换 到 状态 M 一 的 概率 表示 为 


SX a eo ee 5 tH t 
2 N'TMAMT Lim, pM s M™ M 
p(M™ | M) = i i (9-22) 
m X » Wl Mt 
1-3 NC TRA Pere M =M 
Rhya RS 与 者 i 被 选择 加 入 联盟 M, © M'\ My 的 概率 ; 1m ww) 为 指示 


函数 ,指示 参与 者 ;被 联盟 Me 选中 后 ,离开 联盟 Mi 加 入 到 联盟 M4 的 指示 信息 ,如 果 M 
PiMi, 则 指示 函数 的 值 为 1; 否则 为 0。 这 使 得 联盟 Me 的 结构 发 生 M" SI MT 的 变化 , 结 
合式 (9-20) 和 式 (9-22) 可 得 随机 演化 联盟 博弈 的 状态 传递 概率 为 

PCS ge | S" S" at at ah) = p(S | Sasak) X BM | MD) (9-23) 
式 中 ,S” 为 在 时 刻 随机 博弈 的 状态 空间 ，S" 为 在 时 刻 : 演化 联盟 博弈 的 状态 空间 ; a 
在 时 刻 : 演化 联盟 参与 者 采取 的 行动 。 


9.4.5 随机 演化 联盟 博弈 收益 
随机 演化 联盟 博弈 的 目标 是 最 大 化 虚拟 传 感 云 服务 的 可 靠 性 和 服务 质量 。 在 每 个 博弈 
阶段 获得 的 收益 为 
C(S',a‘,a' a4) = B(S';a' a a) (1— p*(S',a',a’,ah)) (9-24) 
sti BCSt a! a! ai) HERS CE JL D 9 2E RETE RT AD A BL 4r TE AE 
z M o ; m N 
BCS a a sak) = fi- D [E ani Hanea) + atas + abe) || > 5 


m=1 m=1 


(9-25) 
式 中 ,Du 的 值 由 式 (9-6) 求 得 ; p° CS a! a! sai) 为 所 有 的 虚拟 传 感 节点 受到 攻击 的 概率 , 它 
可 表示 为 


"P eee: 
Cm,2 —~ Amy in? — Am, ex2 


" t t 
Cml — Am, inl 7 Am,exl | 


amn — Chi — Con 
9.5 随机 演化 联盟 博弈 优化 策略 


一 般 来 说 ,任何 一 个 虚拟 传 感 节 点 有 最 大 容量 ,期 望 的 收益 不 能 超过 其 最 大 容量 。 同 
时 ,获得 的 收益 不 能 比 平均 收益 小 。 联 盟 参 与 者 使 用 随机 演化 联盟 博弈 的 目标 是 求 出 最 优 


amn — Cua 一 Cox 


x 
Cm.2 
à 
m,h2 


p^ S! a! a! al) 


x (9-26) 
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策略 从 而 最 大 化 期 望 收益 , 即 

max z| lim SY¥C(S' a! sa? al) 

s.t. M. « CCS sa! a! sak) < Cons (9-27) 
式 中 ,Cos 为 虚拟 传 感 节点 的 最 大 容量 。 为 了 获得 联盟 参与 者 最 优 策略 ,使 用 minimax-Q 
learning 算法 ,在 时 刻 1, 当 联盟 参与 者 采取 a’ 二 af Xa 行动 时 ,攻击 者 采用 的 行动 为 必 , 由 Q 
函数 估计 累积 的 收益 。 因 此 ,联盟 参与 者 通过 更 新 Q 函数 值 能 计算 纳什 均衡 策略 并 把 
Q(S',a',a',a) 的 值 作为 博弈 矩阵 的 收益 。 其 中 ,随机 博弈 的 Q 函数 为 

Q'CS' .a' a! ai) 

= CCS' ,a' ,a' .ai) 十 入 b» p(s! SP» | S" S" a ja a) VC ut) 


gH itt est ge greg 


(9-28) 
BREE VCI ,x* ) 为 随机 博弈 状态 更 新 的 值 函 数 ,通过 估计 值 函数 获得 随机 博弈 的 最 优 策 
Wem. 
在 攻击 者 的 攻击 下 ,随机 演化 联盟 博弈 中 的 虚拟 传 感 节点 的 状态 变化 决定 了 演化 联盟 
的 可 靠 性 ,演化 联盟 的 可 靠 性 更 新 函数 值 为 
3 Pt Og. SPD 


a (S) S*eser o uu 
Mis 3 P—«OQ44$954 $) POS) 
Ses ier Ses ier 
N qucm, 
2 M a-pbpuGe 
i=l ses meM 
N === N a= 
2 D Ap ppm SPO + D>) Dl bÍO-PpDqQ Gt 
iSl eS nem i=l SS mem 
(9-29) 
结合 式 (9-28) 可 得 随机 演化 联盟 博弈 的 Q 函数 为 
SS 
+7 » PCS ene [S Sh at al sap) 
gd gel st ghey 
XV" ng Gu CS) oe”) (9-30) 


式 中 ,CS ) 为 在 时 刻 1 的 演化 联盟 的 可 靠 性 更 新 函数 值 ; V CS ona (STO ,x* ) 为 随机 演 
化 联盟 博弈 状态 更 新 的 值 函数 ,通过 估计 值 函数 获得 随机 演化 联盟 博弈 的 最 优 策略 r” 。 
令 策略 x 表示 一 个 从 状态 到 行动 的 映射 +:S 一 A。 在 攻击 者 的 攻击 下 ,随机 演化 联盟 
博弈 状态 更 新 的 值 函数 表示 为 
VS pa (Sh) a ) = max min J} QS',a',a',ai)ra',a') (9-31) 
sa! a) 50) ot Eaa ETS ES 
式 中 ,x(a,a) 为 随机 演化 联盟 博弈 参与 者 的 防御 策略 ; x(ai) 为 攻击 者 采取 的 攻击 策略 。 从 
式 (9-31) 可 看 出 ,如 果 求 得 随机 演化 联盟 博弈 Q(S',a',a',a;) 的 值 最 大 时 的 优化 策略 nz ， 
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就 可 以 通过 观察 在 状态 S' 下 最 大 化 演化 联盟 的 行动 收益 Vi CS pr (ST) pa) ARE 
优化 策略 oe” ,从 而 得 出 随机 演化 联盟 博弈 的 最 优 策 略 x Snin o Q— learning 实现 了 Q 
函数 更 新 过 程 ,联盟 参与 者 首先 初始 化 Q(S' ,a' ,a',ai) ,然后 更 新 Q 函数 为 
Qui (S ya" a sah) 一 (一 ai)Q:(S' a" sa" sah) 
+a[CS' a'sa ab nls) +7 maxV, (SH ga 77) 440] 


(9-32) 
式 中 ,a EL0,1] 为 学 习 率 。 
基于 Q 一 learning 的 随机 演化 联盟 博弈 算法 包括 两 个 方面 : 一 方面 是 联盟 参与 者 对 于 
动态 变化 的 攻击 策略 的 自 适应 防御 ; 另 一 方面 是 联盟 参与 者 对 于 联盟 服务 组 合 攻击 策略 的 
动态 演化 联盟 博弈 。 详 细 过 程 如 算法 9-2 所 示 。 
算法 9-2 优化 虚拟 传 感 云 服务 可 靠 性 和 QoS 的 随机 演化 联盟 博弈 算法 。 
输入 : 博弈 状态 5, 行动 集合 A, 收 益 函 数 6。 
输出 : 纳什 均衡 策略 集 x ,演化 联盟 均衡 策略 集 M* 。 
1. 初始 化 :一 0。 
2. FOREACH S'ES AND a'€a.a'€a ANDiE11.…,N) 
3. QS'a' a a1. 
4. VIG! gy GO m )=1。 
5. ENDFOR 
6. LOOP 
7. ”攻击 者 随机 采取 攻击 行动 at ,联盟 参与 者 随机 采取 防御 行动 ci,w' ,使 得 联盟 节点 
状态 由 S EH SH ,联盟 成 员 得 到 的 收益 为 C(S' «a! sa! sat. 
8. FORi=1 TON 
9. 根据 式 (9-29) 计 算 演化 联盟 的 可 靠 性 更 新 函数 值 m (ST 。 
10. ”更 新 优化 策略 和 状态 VCS na STP eet). 
11. ”更 新 函数 Qi(S',a',a',ai)。 
12. ENDFOR 
13. ”联盟 参与 者 i 分别 计算 联盟 Me 和 M, WR o: CM gia, A OM, squ, ) o 
14. IF (OM, qu, )>8) AND Gj* —D AND 6:(M, yu, )>8:) AND (y"=1)) 
/ [à 3 SO 2E C ER Eu, 表示 虚拟 传 感 节 点 i 期望 与 联盟 M4 中 的 邻居 
// 节 点 j AME of =) 表示 虚拟 传 感 节点 i 能够 与 联盟 M 中 的 邻居 节点 j 
// 合 作 ,h, 表 示 虚 拟 传 感 节点 i 期 望 与 联盟 M, 中 的 邻居 节点 j GE =l 
// 表 示 虚 拟 传 感 节 点 i 能 够 与 联盟 M, 中 的 邻居 节点 j 合作 。 


15. IF (MU {j} + yu, >d:(M.U GU oi, ) 
16. 虚拟 传 感 节 点 i 期望 在 联盟 M 中 选择 邻居 节点 7 加 入 联盟 M'。 
17, ENDIF 


18. IF M, DM 
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// 联 盟 参与 者 i 在 联盟 M 中 选择 邻居 节点 7 加 入 联盟 M" 
19. M" —M'UUIUMALGI. 
20. ELSE 
21. MU LM, 
22. ENDIF 
23. ENDIF 
24. t=t+1, 


25. UNTIL QiaC' ,a a a1) — QKG ,a' a sah) 
26. FOREACH S'€ S 

27. «' —Qla(G' a sa! sah). 

28. M'-Mr UM: --UMsg. 

29. ENDFOR 

30. RETURN z^ .M', 


9.6 随机 演化 联盟 均衡 学 习 策 略 


9.6.1 基于 Shapley 值 的 多 重 收益 分 配 


定义 9-8 随机 演化 联盟 均衡 策略 为 
Ci(rr or) > Cii snt) (9-33) 
式 中 ,Ci(，。) 为 虚拟 服务 组 合 联盟 获得 的 收益 ; xi 为 联盟 参与 者 i 的 策略 ,x 表示 联盟 参 
与 者 i 的 纳什 均衡 策略 ; x*; 为 除 联盟 参与 者 i 外 的 所 有 联盟 参与 者 的 纳什 均衡 策略 。 随 机 
演化 联盟 博弈 达到 平衡 后 ,收益 的 平均 分 配 决定 了 在 时 刻 :十 1 联盟 参与 者 之 间 合 作 的 动 
Ji, Shapley 值 使 用 向 量 g (c) 一 (pi(c)，…,9pF(c)) 分 配 收益 ,其 中 yi(c) 表 示 每 个 联盟 参与 
者 i 的 平均 收益 分 配 。 令 在 联盟 M 中 ,向 内 提供 服务 的 虚拟 传 感 节点 总 数 为 |M"| ,向 外 提 
供 服务 的 虚拟 传 感 节点 总 数 为 | M™|。 
由 此 可 得 ,虚拟 传 感 节点 j 向 内 提供 服务 时 ,获得 Shapley 值 的 平均 收益 分 配 概率 为 
go- D Mu A ud 


M" C(OI-M*AGU) 


LM U (D —c(M™)] 


(9-34) 
式 中 ,cCM™U 17)) 一 cCM") 为 博弈 参与 者 j 加 入 内 部 服务 组 合 联盟 M" 时 提供 的 共享 容量 ; 
cCM® ) 为 内 部 服务 组 合 联盟 的 容量 ; COM U (j)) 为 博弈 参与 者 j 加 入 内 部 服务 组 合 联盟 
M" 后 内 部 服务 组 合 联盟 的 容量 。 

类 似 地 .虚拟 传 感 节 点 j 向 外 提供 服务 时 ,获得 Shapley 值 的 平均 收益 分 配 概率 为 


ex | Li in | ex | 11 
5 belo "ur [MTZ Dre U (7)) em] 


g) = 
M*<(M—M™)\(j) 

(9-35) 

SUH. (MU UD —c(M™) KREG j 加 入 外 部 服务 组 合 联盟 Ms 时 提供 的 共享 容量 ; 
cCMs ) 为 外 部 服务 组 合 联盟 的 容量 ; COM U (7 及 为 博弈 参与 者 7 加 入 外 部 服务 组 合 联盟 


第 9 章 “ 基 于 随机 演化 联盟 博弈 的 虚拟 传 感 云 服务 安全 机 制 研究 | 


M“* 后 ,外 部 服务 组 合 联盟 的 容量 。 

由 此 可 得 ,随机 演化 联盟 博弈 中 虚拟 传 感 节 点 j 的 Shapley 值 平均 收益 分 配 的 容量 
AlS sa gi C) = gr COLctaCS a) + city G' a0] + e? Co Lefton CS sa") + cS’,a')] 

(9-36) 

RP ictor 和 chu 分 别 为 内 部 服务 不 合作 和 合作 获得 的 收益 分 配 ; co AL cto SP PRU 4 
不 合作 和 合作 获得 的 收益 分 配 。 

Shapley 值 用 于 随机 演化 联盟 博弈 的 合作 收益 分 配 , 主 要 有 以 下 特性 : 

QD 228 a e; C) > cCM) ,其 中 cCM) 表示 联盟 M 的 平均 容量 ,表明 随机 演化 联 
盟 博弈 总 的 合作 收益 值 变 大 。 

(2) WMR cCMU G D =cCMU UD W ci CS' 5a" «gi CO) = CS' sa" ,gi;(c))，, d 
节点 i 和 7 具有 相同 的 收益 分 配 ,也 即 获得 了 保证 其 可 靠 性 的 容量 ,使 得 联盟 MU (i 
MU {让 具 有 相同 的 安全 级 别 。 

G) 如 果 cCM) =c(MU (站), 则 ci(S',a',gi(c)) 二 0, 这 表明 虚拟 传 感 节点 i 不 能 提供 
共享 容量 ,因此 ,在 本 次 博弈 中 获得 的 收益 为 零 , 这 使 得 服务 组 合 的 安全 级 别 降低 。 

(4) 如 果 cCMi UM ZcO240 TOM?) fF B Mi 1M; — Ø 3X AERE M 和 Ms 合作 
的 收益 大 于 不 合作 的 收益 ,使 得 合作 后 服务 组 合 的 安全 级 别 升 高 。 


9.6.2 随机 演化 联盟 的 收益 估计 


随机 演化 联盟 的 收益 估计 考虑 两 方面 , 即 虚拟 传 感 节点 组 成 的 服务 组 合 既 向 私有 云 提 
供 内 部 服务 ,又 向 公有 云 提供 外 部 服务 。 因 此 ,在 同等 条 件 下 ,虚拟 传 感 节点 要 在 保证 私有 
云 的 内 部 服务 正常 运行 的 情况 下 再 向 外 部 提供 服务 , 即 内 部 服务 的 收益 大 于 外 部 服务 的 收 
益 。 博 弈 参与 者 7 在 内 部 服务 组 合 联盟 中 的 收益 估计 为 
Thiem = EE + oh a, mt) + Lees at sah 3,0 yin) (ch — Eh) (9-37) 
式 中 ,ch 为 在 时 刻 t 内 部 服务 组 合 联盟 中 博弈 参与 者 j 期 望 的 收益 ; opua E THE Za] e 博弈 
参与 者 j 在 内 部 服务 组 合 联盟 的 学 习 速 率 ; ll。,-xm) 为 指示 函数 ,表明 在 时 刻 :联盟 参与 者 
J 选择 内 部 服务 组 合 联盟 M" 加 入 时 值 为 1, 否 则 为 0; Lies at apga wmv) 为 指示 函数 ,表明 
攻击 者 对 内 部 服务 组 合 联盟 M" 采 用 的 行动 为 ,联盟 参与 者 采取 行动 为 a, 获得 的 收益 为 
CCS' «a! sai 二 0CM s hen IE. PRN 1. IO 0; cn WERNA c 联盟 参与 者 7 选择 内 部 
AIR SS 2A EK m 后 观察 到 的 收益 。 
同 理 ,博弈 参与 者 j 在 外 部 服务 组 合 联盟 中 的 收益 估计 为 
Chan = cht + ois Na, =m) 十 lis, sat at >a, ME abge) (Chit — Chie ) (9-38) 
SP CLE NEMA o 外 部 服务 组 合 联盟 m 中 博弈 参与 者 j 期 望 的 收益 ; ors I TE THE Za] c 博弈 
参与 者 j 在 外 部 服务 组 合 联盟 的 学 习 速 率 ; Lia, Len 为 指示 函数 ,表明 在 时 刻 上 联盟 参与 者 
7 选择 外 部 服务 组 合 联盟 M“ 加 入 时 值 为 1, 否 则 为 0; Lise aeu) DIER PROC K 
明 攻 击 者 对 外 部 服务 组 合 联盟 M“ 采 用 的 行动 为 a .联盟 参与 者 采取 行动 为 a ,获得 的 收益 
H CCS! a! a4) Sd, M™ ,me*) 时 ,函数 值 为 1, 否 则 为 0; ch ON EMT A c 联盟 参与 者 j 选择 
外 部 服务 组 合 联 盟 m 后 观察 到 的 收益 。 值 得 注意 的 是 ,在 一 般 情况 下 ,C1 主导 1。 
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9.6.3 随机 演化 联盟 的 策略 学 习 


要 使 得 整个 联盟 获得 最 大 收益 ,新 加 入 联盟 的 参与 者 应 持续 地 学 习 其 他 联盟 成 员 的 策 
略 ,达到 所 有 联盟 成 员 联 合 防御 的 目的 。 因 此 ,策略 学 习 的 过 程 是 联盟 成 员 复制 其 他 联盟 成 
员 行 动 的 过 程 。 这 表明 一 个 新 加 入 联盟 的 参与 者 将 以 较 高 的 概率 复制 联盟 内 成 功 防御 的 参 
与 者 的 行动 。 这 个 过 程 的 实现 主要 通过 观察 实施 成 功 防御 的 参与 者 的 收益 来 获得 ,一 个 参 
与 者 防御 后 的 收益 越 高 说 明 其 防御 越 成 功 , 其 策略 及 行动 被 复制 的 概率 就 越 大 。 当 参与 者 
发 现 一 个 参与 者 防御 后 的 收益 很 低 , 它 将 采取 非 理性 的 方式 来 复制 策略 及 行动 。 策 略 学 习 
方程 表示 为 

Orde A HE) 

20h ae AFE) 


5& rh Ou HAERA EERI A 被 选中 加 入 到 联盟 MM, 则 其 值 为 1, 否 则 为 0; yh: 为 
若 在 时 刻 : 虚拟 传 感 节点 7 处 于 可 靠 状态 , 则 其 值 为 1 ,否则 为 0; & 为 在 时 刻 : 博弈 参与 者 
j WAJER., pisi 的 定义 详 见 式 (9-4) ,表示 复制 概率 。 联 盟 参 与 者 j 变化 其 策略 的 概 
率 为 


Wen = 


. Altet +1) (9-39) 


Je cilt 3-1) >) 


l-y. 其 他 

在 式 (9-40) 中 ,如 果 联 盟 参与 者 j 发 现在 时 刻 / 复制 其 他 联盟 策略 后 ,在 时 刻 /十 1 的 收 
益 大 于 时 刻 1 的 收益 , 即 (十 1)>cj(2) 表 示 联 盟 参与 者 了 将 以 理性 的 概率 X 变化 其 策略 。 
如 果 出 现 G (1 十 De CD) 时 ,联盟 参与 者 j 将 以 非 理性 的 概率 1 一 x 变化 其 策略 。 

从 式 (9-23) . 式 (9-39) 式 (9-40) 可 以 看 出 ,随机 演化 联盟 博弈 的 稳定 状态 决定 于 马尔 
可 夫 链 的 传递 概率 的 稳定 性 。 当 联盟 参与 者 以 很 小 的 非 理性 策略 变化 时 ,随机 演化 联盟 博 
弈 达到 稳定 平衡 状态 。 随 机 演化 联盟 博弈 的 稳定 状态 吸收 了 随机 博 蛮 和 演化 联盟 博弈 的 稳 
定 状态 , 它 与 马尔 可 夫 链 的 稳定 状态 相 一 致 。 当 随机 演化 联盟 博弈 达到 稳定 状态 时 ,容量 收 
益 不 能 够 再 分 配 , 此 时 ,可 以 表示 随机 演化 联盟 博弈 稳定 状态 为 0 (S ,P* ,x* 07 M7. 
其 中 ,S* 表示 随机 演化 联盟 稳定 的 状态 ; 已" 表示 稳定 状态 的 传递 概率 ; x* 表示 稳定 策略 ; 
D 表示 稳定 状态 的 收益 ; M" 表示 稳定 联盟 结构 。 


9.7 实验 


本 章 利用 MATLAB R2010a 仿真 了 已 提出 的 模型 和 算法 。 在 仿真 实验 中 ,首先 评估 了 
BA 模型 生成 可 靠 联盟 时 参数 a 和 < 对 算法 性 能 的 影响 。 对 于 基于 BA 模型 的 可 靠 联盟 的 
形成 ,设置 无 标 度 网 络 初始 节点 个 数 为 20, 每 次 选择 新 的 可 靠 节点 加 入 联盟 后 生成 的 边 数 
为 2, 生 成 可 靠 联盟 后 的 网 络 规模 为 100。 初 始 网 络 节点 都 为 孤立 节点 ,生成 的 可 靠 联盟 中 
各 个 节点 的 容量 分 布 如 图 9-3 所 示 。 从 图 9-3 中 可 以 看 出 , 随 着 节点 数 的 增加 .联盟 中 的 每 
个 参与 者 共享 的 容量 数 在 减少 。 当 节点 数 为 20 时 ,联盟 中 每 个 参与 者 共享 的 容量 数 达到 最 
大 。 图 9-4 给 出 了 联盟 中 节点 的 容量 分 布 , 其 平均 容量 分 配 值 约 为 3. 14。 从 图 9-4 中 可 以 
看 出 ,最 终 形成 联盟 的 容量 数 为 3 的 节点 达到 43%。 没 有 加 入 联盟 的 节点 达 17%。 通 过 


A @t+) = (9-40) 
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BA 模型 使 得 不 可 靠 的 节点 未 加 入 联盟 ,因此 ,减少 了 形成 联盟 的 节点 数 ,使 得 随机 演化 联 
盟 防御 阶段 的 演化 稳定 时 间 缩 短 。 
20 : - - 
18 


节点 数 
图 9-3 联盟 中 每 个 节点 的 容量 分 布 


10 
节点 容量 


图 9-4 联盟 中 节点 容量 的 概率 分 布 


图 9-5 给 出 了 在 asco 的 情况 下 ,参数 ya 值 对 应 联盟 节点 间 合 作 速 率 的 影响 。 从 图 9-5 
可 以 看 出 , 随 着 y 的 减少 ,合作 速率 u 降低 ,这 表明 越 小 的 贴现 率 , 合 作 的 机 会 越 小 ,收益 越 
小 ,虚拟 传 感 节点 的 可 靠 性 越 差 。 图 9-6 显示 了 在 o> 0 的 情况 下 ,参数 yo 值 对 联盟 节点 
间 合作 速率 的 影响 。 从 图 9-6 可 以 看 出 , 随 着 y 的 增 大 ,合作 速率 升 高 。 这 表明 越 大 的 贴 
现 率 ,合作 的 机 会 越 多 ,收益 越 高 ,虚拟 传 感 节 点 的 可 靠 性 越 高 。 

图 9-7 给 出 了 攻击 者 和 防御 者 的 学 习 曲 线 。 面 对 攻击 时 ,防御 者 开始 有 最 小 的 收益 , 随 
后 ,防御 者 观察 到 攻击 者 的 策略 和 行动 后 .防御 者 变化 其 策略 ,通过 Q 值 和 可 靠 性 更 新 , 联 
盟 参与 者 选择 可 靠 的 虚拟 传 感 节点 并 通过 共享 容量 来 提高 其 收益 ,使 得 收益 达到 局 部 最 大 
值 。 经 过 连续 多 次 学 习 和 和 迭代 后 ,攻击 者 的 收益 达到 局 部 最 小 。 防 御 者 通过 Q 函数 累积 其 
收益 后 ,使 其 收益 达到 最 大 ,而 攻击 者 累积 的 收益 达到 最 小 。 图 9-8 给 出 了 不 同 博弈 的 平均 
收益 ,随机 演化 联盟 博弈 (SECG) 由 于 使 用 了 BA 模型 形成 演化 联盟 ,开始 其 收益 升 高 到 约 
为 0. 5 ,接着 逐渐 升 高 到 最 大 值 , 约 为 0. 68 .随后 面 对 攻 击 时 ,防御 者 和 攻击 者 开始 博弈 ,经 
过 6 步 迭 代 后 达到 均衡 ,此 时 ,SECG 收益 约 为 0.57。 随 机 博弈 (SG) 模 型 虽然 没有 使 用 联 
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盟 博弈 ,但 是 由 了 
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图 9-5 打折 因子 的 大 小 和 a<<0 对 合作 速率 的 影响 
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图 9-6 打折 因子 的 大 小 和 a>0 对 合作 速率 的 影响 
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E 2 
攻击 者 和 防御 者 的 策略 
图 9-7 攻击 者 和 防御 者 的 策略 和 稳定 性 学 习 曲 线 


自 适应 地 变化 防 


FF 随机 的 策略 选择 能 有 效 地 防御 攻击 ,开始 收益 约 为 0. 4, 经 过 5 p E (GS 
化 联盟 博弈 (ECG) 的 平均 收益 约 为 0.2. 由 于 只 靠 联盟 的 演化 来 防御 ,不 能 
御 策略 ,这 使 得 当 联 盟 攻击 者 的 策略 变化 时 ,ECG 的 收益 减少 ,联盟 成 员 开 
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始 选择 新 的 联盟 加 入 ,经 过 3 步 只 代 后 ,联盟 达到 收益 的 最 高 点 并 达到 均衡 状态 。 若 此 时 再 
受到 攻击 ,联盟 开始 下 一 轮 的 演化 ,同样 经 过 3 步 迭 代 后 达到 均衡 状态 。 由 于 SECG 包含 联 
盟 演化 的 过 程 ,SG 比 SECG 先 到 达 均 衡 。 


08 ; : 
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图 9-8 不 同 博弈 的 平均 收益 


图 9-9 给 出 了 不 同 策略 的 总 贴现 收益 ,其 中 SECG 在 优化 联盟 当前 结构 时 ,考虑 了 将 来 
的 收益 ,实现 了 很 高 的 贴现 收益 ,SECG 比 SG 高 86%, 比 固定 策略 高 出 约 2 倍 多 。 因 此 ,使 
用 SECG 能 动态 适应 攻击 者 策略 的 变化 .有 效 地 提高 虚拟 传 感 云 服 务 的 可 靠 性 和 服务 质 
量 。 图 9-10 给 出 了 不 同 博弈 中 联盟 结构 大 小 对 于 网 络 通信 成 本 的 影响 。 其 通信 成 本 计算 
式 为 


M 
C. = ST (di + di) (9-41) 
i=1 


一 随机 演化 联盟 博弈 


12 一 随机 博 蛮 
一 一 固定 策略 


总 贴现 收益 


20 25 30 35 40 
ARAM 
图 9-9. 不 同 策略 达到 稳定 状态 时 的 贴现 收益 


RPT: 为 虚拟 传 感 云 服务 组 合 联盟 i 被 请 求 消息 的 次 数 ; &; 为 消息 在 虚拟 传 感 云 服务 组 
合 联 盟 i 中 传递 的 跳 数 ; d; 为 虚拟 传 感 云 服务 组 合 联 盟 i 请 求 消息 的 数据 量 ; d; 为 虚拟 传 
感 云 服 务 组 合 联盟 i 接收 消息 的 数据 量 。 从 图 9-10 中 可 以 看 出 , 随 着 联盟 结构 规模 的 增 
加 ,不 同 博弈 的 通信 成 本 呈现 上 升 趋势 ,其 中 演化 联盟 博弈 ECG 的 增长 快 于 SECG 和 SG. 
这 是 由 于 在 ECG 中 没有 预先 形成 联盟 ,因此 ,联盟 参与 者 必须 先 和 所 有 的 虚拟 传 感 节 点 通 
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图 9-10 不 同 博弈 联盟 结构 对 网 络 通信 量 的 影响 


信 形 成 联盟 ,再 演化 形成 可 靠 的 联盟 。SECG 先 通 过 BA 模型 形成 了 可 靠 的 联盟 ,在 随机 演 
化 博弈 过 程 中 可 以 不 必 和 所 有 的 虚拟 传 感 节点 通信 ,从 而 减少 通信 量 。SG 不 需要 形成 联 
盟 ,只 需 与 人 侵 检 测 系 统 传递 消息 ,因此 其 通信 成 本 最 小 。 对 于 联盟 大 小 为 80 的 联盟 而 言 ， 
ECG 比 SECG 的 通信 成 本 高 约 67%% ,而 比 SG 高 出 约 1 倍 多 。SECG 比 ECG 的 通信 成 本 
小 约 40%。 对 于 联盟 大 小 为 40 的 联盟 而 言 ,ECG .SECG 博弈 策略 达到 均衡 后 ,联盟 处 于 
稳定 状态 ,此 时 通信 量 不 再 变化 , 当 稳 定 状 态 概率 发 生变 化 时 ,意味 着 联盟 博弈 转换 为 下 一 
个 状态 ,此 时 通信 量 又 开始 增加 ,但 不 会 超过 前 一 个 状态 的 通信 量 , 这 是 由 于 稳定 状态 概率 
的 变化 是 由 攻击 者 的 攻击 引起 ,此 时 的 联盟 参与 者 作为 防御 者 只 需 使 得 可 靠 性 较 差 , 受 攻击 
的 联盟 进行 演化 ,而 不 会 与 联盟 前 一 状态 的 所 有 成 员 通 信 。 


9.8 小 结 


为 了 提高 虚拟 传 感 云 服 务 的 可 靠 性 和 服务 质量 ,本 章 分 析 了 虚拟 传 感 云 服务 系统 动态 
的 容量 和 变化 的 攻击 者 策略 ,模型 化 攻击 者 和 防御 者 之 间 的 交互 过 程 为 一 个 随机 演化 联盟 
博弈 。 在 模型 中 ,联盟 参与 者 根据 对 系统 容量 状况 和 攻击 行动 的 观察 ,使 用 学 习 算法 自 适应 
攻击 者 策略 的 变化 ,并 根据 它们 的 偏好 理性 地 形成 联盟 来 最 大 化 个 体 的 收益 。 仿 真 结果 显 
IR SECG 模型 能 有 效 减少 网 络 通信 量 和 获得 最 大 收益 ,并 且 能 较 快 达到 稳定 状态 。 与 ECG 
和 固定 策略 相 比 ,SECG 模型 能 够 获得 较 高 的 收益 和 性 能 。 使 用 Q 学 习 算 法 ,通过 多 次 迭 
代 , 使 得 防御 者 的 累积 收益 达到 最 大 ,攻击 者 的 累积 收益 达到 最 小 。 此 外 ,本 章 还 阐述 了 联 
盟 的 可 靠 性 更 新 和 基于 Shapley 值 的 多 重 收益 分 配 机 制 ,在 SECG 模型 中 使 用 这 个 机 制 , 可 
以 不 断 更 新 虚拟 传 感 节点 的 可 靠 状 态 和 累积 收益 ,加 快 联盟 的 稳定 和 激励 下 一 轮 的 合作 。 
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基于 演化 博弈 的 传感器 节点 
保密 率 自 适应 调节 研究 


本 章 通 过 扩展 经 典 窃听 信道 模型 ,针对 聚 徐 无 线 传感器 网 络 提出 了 传感器 节点 和 其 对 
应 簇 头 节点 之 间 的 保密 率 计算 方法 ,构建 了 一 个 非 合作 保密 率 博弈 模型 ,以 反映 传感器 节点 
之 间 的 交互 关系 。 利 用 演化 博弈 思想 ,建立 了 传感器 节点 自 适应 选择 发 射 功率 的 机 制 , 提 出 
了 传感器 节点 自 适应 调节 保密 率 的 算法 。 实 验 结果 表明 ,提出 的 方法 能 自 适应 地 调节 传 感 
器 节点 的 保密 率 , 为 保证 无 线 传感器 网 络 数据 的 保密 性 提供 了 新 途径 。 


10.1 .引言 


传感器 节点 资源 的 有 限 性 决定 了 保障 无 线 传感器 网 络 的 安全 具有 很 大 的 挑战 。 国 内 外 
学 者 为 防御 无 线 传 感 器 网 络 中 存在 的 威胁 和 漏洞 ,提出 了 加 密 机 制 、 攻 击 检测 .安全 路 由 等 
多 种 方法 "0 。 与 传统 保障 网 络 通信 安全 方法 不 同 , 物 理 层 安全 利用 无 线 信道 的 物理 特性 保 
障 无 线 通信 的 安全 “9 。 由 于 这 种 方法 不 需要 添加 额外 组 件 , 而 是 利用 物理 层 的 基础 能 
力 实现 网 络 通信 安全 ,所 以 非常 适合 资源 有 限 的 无 线 传感器 网 络 。 

物理 层 安全 技术 的 实质 是 在 防止 窃听 者 获得 通信 数据 的 同时 ,最 大 化 源 节点 到 目标 节 
点 的 可 靠 通信 率 ( 保 密 率 ) 。 其 中 ,最 大 化 的 保密 率 被 称 为 保密 容量 。Wyner 在 其 开创 性 的 
工作 5 中 介绍 了 经 典 窃听 模型 ,并 说 明了 即使 不 使 用 密 钥 也 能 实现 节点 间 的 绝对 通信 安 
全 。 随 后 ,国内 外 学 者 对 高 斯 窃听 信道 "5 .广播 信道 rp Jk OP 、 
MISOCMulti-Input Single-Output ,多 输入 单 输出 ) 信 道 [4' 57 J MIMOCMulti-Input Multi- 
Output, 多 输入 多 输出 ) 信 道中 "和 等 的 保密 容量 进行 了 系统 的 基础 研究 。 

在 各 种 信道 保密 容量 研究 基础 上 , 当前 的 一 个 焦点 问题 是 如 何在 相同 的 网 络 环境 下 提 
高 物理 层 的 安全 性 。 然 而 , 现 有 文献 在 提高 物理 层 安 全 性 的 同时 ,未 考虑 对 网 络 通信 的 影 
响 。 实 际 上 ,在 无 线 传 感 器 网 络 数据 通信 过 程 中 ,发 射 功 率 是 影响 传感器 节点 保密 率 的 关键 
因素 。 由 于 传感器 节点 的 自私 性 ,每 个 传感器 节点 都 希望 增强 自身 的 发 射 功率 ,从 而 最 大 化 
自己 的 保密 率 。 但 这 种 增强 自身 发 射 功率 的 做 法 干扰 了 其 他 传感器 节点 的 通信 ,同时 大 大 
消耗 了 自身 能 量 。 因 此 , 仅 考 虑 最 大 化 传感器 节点 保密 率 , 对 整个 网 络 的 效用 而 言 不 一 定 是 
最 优 的 选择 。 

本 章 以 最 大 化 网 络 效 用 为 目标 ,利用 演化 博弈 方法 实现 传感器 节点 保密 率 的 自 适应 调 
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节 。 首 先 ,为 适应 无 线 传感器 网 络 环境 扩展 了 经 典 保密 率 计算 公式 ,从 而 可 以 深入 理解 无 线 
传感器 网 络 中 影响 保密 率 的 因素 ; 然后 ,通过 建立 一 种 非 合作 传 感 器 节点 保密 率 博弈 模型 ， 
解决 传感器 节点 力图 最 大 化 各 自 保密 率 的 同时 ,影响 整个 网 络 通信 的 问题 ; 最 后 ,利用 演化 
博弈 论 中 的 复制 动力 学 模型 ,给 出 传感器 节点 如 何 动态 地 选择 各 自 的 发 射 功 率 以 最 大 化 适 
应 度 的 演化 过 程 ,实现 传感器 节点 保密 率 自 适 应 调节 的 机 制 。 

在 扩展 作者 前 期 工作 “9 的 基础 上 ,本 章 的 工作 主要 包括 以 下 内 容 : 

CD. 在 考虑 无 线 传感器 网 络 存在 通信 干扰 的 情况 下 ,通过 扩展 经 典 的 窃听 模型 ,构建 了 
适用 于 聚 秘 无 线 传感器 网 络 的 用 于 计算 传感器 节点 与 其 对 应 的 筷 头 节点 之 间 的 保密 率 
模型 。 

(2) 以 传感器 节点 之 间 的 相互 交互 为 基础 ,建立 了 一 个 非 合作 保密 率 博弈 模型 米 反 映 
传感器 节点 传送 数据 时 的 能 量 消耗 。 通 过 最 大 化 传感器 节点 的 各 自 收益 实现 能 正确 选择 它 
们 各 自 的 功率 策略 的 目的 。 

(3) 从 演化 博弈 论 角 度 , 得 到 了 能 激励 传感器 节点 去 寻求 具有 较 高 适应 度 的 功率 策略 ， 
以 及 揭示 哪个 功率 策略 能 最 终 被 变异 者 选择 的 演化 稳定 策略 ,相应 地 ,实现 了 传感器 节点 之 
间 保 密 率 的 自 适应 调节 。 

本 章 其 余 章节 安排 如 下 : 10. 2 节 介绍 相关 工作 ; 10. 3 节 讨论 传感器 节点 之 间 的 干扰 
模型 ,并 给 出 如 何 计算 聚 艇 无 线 传感器 网 络 中 传感器 节点 与 相应 的 能 头 之 间 保 密 率 的 计算 
公式 ; 10.4 节 首先 建立 传感器 节点 之 间 的 保密 率 博弈 模型 ,然后 利用 演化 博弈 论 中 的 复制 
动力 学 分 析 传感器 节点 保密 率 的 变化 过 程 ,再 给 出 传感器 节点 保密 率 自 适应 调节 算法 ; 
10. 5 节 通过 数值 实验 说 明 各 成 本 参数 对 传感器 节点 保密 率 博 蛮 模型 的 影响 ,也 说 明了 传 感 
器 节点 保密 率 自 适应 调节 的 过 程 ; 10. 6 节 给 出 本 章 小 结 。 

本 章 涉及 的 符号 含义 如 下 : 

6 表示 无 线 传感器 网 络 中 传感器 节点 的 分 布 密度 。 

rx 表示 传感器 节点 的 数据 接收 范围 。 

ri 表示 传感器 节点 的 通信 干扰 范围 。 

表示 标准 方差 。 

zi 表示 传感器 节点 的 通信 干扰 区 域 。 

了 表示 干扰 一 个 传感器 节点 通信 的 其 他 传感器 节点 数 的 最 大 值 。 

S 表示 包含 M 个 传感器 节点 的 集合 。 

HERUR N 个 能 头 节点 的 集合 。 

e 表示 包含 个 窃听 者 的 集合 。 

en 表示 能 窃听 传感器 节点 Sn 感应 数据 的 窃听 者 集合 。 

G 闪 表示 传感器 节点 S。 和 其 对 应 的 能 头 节点 H, 之 间 的 信道 增益 。 

GÈ JUR HERBA A S。 和 窃听 者 EtE e, 之 间 的 信道 增益 。 

P 表示 秘 头 节点 和 窃听 者 之 间 的 热 噪声 功率 。 

W 表示 每 个 信道 的 带宽 。 

Sr 表示 干扰 传感器 节点 S。 信 号 发 送 的 干扰 者 ,i€ (1,2,…,1,)。 

,表示 干扰 传感器 节点 Sn 信号 发 送 的 干扰 者 的 集合 。 
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Ch 表示 传感器 节点 Sn 到 其 对 应 能 头 节点 H, 的 信道 容量 。 
Py 表示 传感器 节点 Sm 选择 的 发 射 功 率 。 
Pr 表示 干扰 节点 $S” 选择 的 发 射 功率 。 


GE 表示 干扰 节点 Sw MEK 有 ,之 间 的 信道 增益 。 
(党 表示 传感器 节点 Sn SOIT E, Cen 的 信道 容量 。 


GE 表示 干扰 节点 S” 和 窃听 者 EE ew 之 间 的 信道 增益 。 

CC Pn) RAB EEE RAE BIE DY FE Pu 的 传感器 节点 S。 和 其 对 应 簇 头 节 点 H a 之 间 的 保 

了 表示 本 章 定义 的 传感器 节点 保密 率 博弈 模型 。 

7 号 示 所 有 传感器 节点 可 选择 功率 策略 的 集合 。 

UREA fe IR BE AG I Sm 选择 功率 策略 P。, 且 它 的 对 手 选择 功率 策略 Pa 时 的 效用 集合 。 

用 表示 传感器 节点 Sm 可 选择 的 功率 策略 P,, 的 集合 。 

LCP in ,Pa ) 表 示 传 感 器 节点 Sm 选择 功率 策略 P，, 且 它 的 对 手 选择 功率 策略 Pr 时 的 
效用 。 

a 表示 用 于 反映 传感器 节点 在 发 送 数据 时 消耗 能 量 状况 的 成 本 参数 。 

0, (0 表示 在 时 刻 上 选择 功率 策略 7 的 传感器 节点 在 整个 无 线 传 感 器 网 络 中 所 占 的 
比例 。 

0(0) 表 示 整 个 无 线 传 感 器 网 络 的 混合 策略 。 

(四 表示 传感器 节点 Sn 在 时 刻 上 选择 功率 策略 7 的 适应 度 。 

有 (表示 整个 无 线 传感器 网 络 在 时 刻 1 的 平均 适应 度 。 

(1) 表 示 传 感 器 节点 Sm 在 时 刻 : 选择 功率 策略 7 的 期 望 保密 率 。 

(0 表示 整个 无 线 传感器 网 络 在 时 刻 c 的 平均 期 望 保密 率 。 

ri(0) 表 示 选 择 功率 策略 j 的 传感器 节点 的 平均 策略 改变 率 。 

(9) 表示 传感器 节点 改变 当前 功率 策略 j 到 4 的 概率 。 

上 表示 一 个 连续 可 微 的 概率 分 布 函数 。 

9;( 四 表示 在 时 刻 1 选择 功率 策略 7 的 传感器 节点 在 缩减 种 群 (Downsized Population) 
中 所 占 的 比例 。 

OL) BEAR TERY Za] c 整个 缩减 种 群 的 状态 。 

Gin BARK du; D — pa (00) — Beg C) — po IO B fü] iU IET o 

Jam 表示 Jacobian 矩阵 了 的 元 素 。 

Pn 表示 高 功率 策略 。 

Py 表示 低 功率 策略 。 

pm 表示 CPs Pn) 的 简 记 符号 。 

kL 表示 Pa PL) 的 简 记 符号 。 

jn 表示 a COP Pa) 的 简 记 符号 。 

Ar 表示 HOP POS i fo. 
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10.2 相关 工作 


随 着 各 种 信道 中 保密 容量 研究 的 深入 ,当前 有 很 多 研究 者 都 在 从 事 如 何 提 高 物理 层 安 
全 的 问题 。 龙 航 等 人 5 习 较 早 综述 了 物理 层 安 全 技术 的 背景 和 研究 现状 ,说 明了 目前 物理 
层 安 全 技术 的 研究 以 窃听 信道 容量 分 析 为 基础 ,并 对 其 未 来 的 发 展 进行 了 展望 ,指出 了 物理 
层 鉴 权 技 术 、 物 理 层 密 钥 产生 技术 和 物理 层 加 密 技术 等 研究 方向 。Mukherjee 4 A JA 
Shannon fil Wyner 的 信息 理论 安全 (Information-theoretic Security) 入 手 , 综 述 了 从 点 对 点 
网 络 到 多 天 线 系统 中 信息 安全 策略 的 演化 过 程 ,还 介绍 了 基于 物理 层 的 密 钥 生成 协议 、 信 道 
安全 编码 方法 、 基 于 物理 层 的 消息 认证 等 。 李 翔 宇 等 人 中 针对 中 继 节 点 不 可 信和 的 问题 ,将 
中 继 前 后 的 两 个 信道 等 效 合 并 为 一 个 信道 后 得 到 联合 信道 特征 ,再 在 联合 信道 特征 的 零 空 
间 中 增加 人 工 噪声 ,使 参与 转发 的 中 继 节点 无 法 获得 有 效 信息 量 , 从 而 实现 中 继 物 理 层 安全 
传输 的 目的 。 王 亚 东 等 人 "针对 安全 编码 设计 方法 对 信道 条 件 依 赖 性 强 、 收 发 无 法 共享 
并 具有 随机 性 等 问题 ,提出 了 一 种 多 天 线 信 道 特征 投影 物理 层 安全 编码 算法 。 卫 红 权 等 
人 5 基于 扰动 理论 提出 了 一 种 适用 于 频率 选择 性 衰落 环境 的 物理 层 安 全 模型 ,该 模型 能 
够 通过 调节 扰动 阔 值 来 平衡 实际 系统 的 可 用 性 和 安全 性 。 陈 涛 等 人 "5 通过 在 次 用 户 的 发 
送信 号 中 加 入 适当 功率 的 人 为 噪声 ,有 效 地 提高 了 网 络 的 物理 层 安全 性 能 。 罗 苗 等 人 中 
针对 双向 无 线 协 作 通 信 系统 的 信息 论 安全 问题 ,提出 了 一 种 基于 多 节点 协作 波束 形成 的 中 
继 与 阻塞 混合 机 制 来 提高 物理 层 信息 传输 的 安全 性 。 李 桥 龙 和 金 梁 "基于 无 线 信 道 的 特 
征 差异 ,从 信息 理论 安全 角度 论证 了 加 性 随机 化 权 值 和 乘 性 随机 化 权 值 具 有 最 小 信息 泄露 
时 应 满足 的 最 佳 分 布 , 给 出 了 线性 随机 化 预 处 理 模型 ,设计 出 了 一 种 实用 的 物理 层 安全 传输 
机 制 。 邓 浩 等 人 "中 针对 传统 干扰 策略 无 法 有 效 利用 所 有 协作 节点 的 阻塞 功率 的 问题 , 提 
出 了 一 种 多 节点 分 组 协作 干扰 以 增强 无 线 网 络 保密 率 的 策略 ,实现 了 组 内 的 协作 节点 能 近 
乎 完全 利用 可 用 的 阻塞 总 功率 的 目的 。 当 采用 空域 加 扰 实 现 物理 层 安全 时 ,构造 的 多 天 线 
加 权 向 量 在 合法 信道 上 的 投影 具有 便 模 特性 ,窃听 者 能 够 利用 这 一 特性 截获 私密 信息 ,针对 
这 一 问题 , 李 明 亮 等 人 "外 设计 了 一 种 基于 空 频 联合 加 扰 的 物理 层 安全 算法 。 林 通 等 人 中 
针对 无 线 多 播 系统 受 限于 发 送 方 天 线 数目 ,整体 信道 通常 不 存在 零 空 间 , 无 法 利用 传统 的 物 
理 层 安 全 技术 保证 其 安全 传输 的 问题 ,提出 了 一 种 基于 多 载波 的 多 播 系统 物理 层 安全 方案 。 
吉 江 等 人 "5 提出 了 基于 随机 发 送 参考 的 多 天 线 系统 传输 算法 ,该 算法 将 授权 用 户 的 信道 
分 解 为 多 个 独立 并 行 的 信道 ,并 在 其 中 的 一 个 信道 中 发 送 随机 化 的 导 频 信息 ,同时 对 其 他 信 
道 加 密 , 从 而 实现 物理 层 信 息 安 全 传输 的 目的 。 崔 波 等 人 "中 针对 有 限 字 符 输 入 系统 的 无 
线 物 理 层 安全 传输 问题 ,利用 MIMO 系统 的 接收 天 线索 引 承 载 信 息 ,通过 切换 接收 天 线 随 
机 化 窃听 者 的 等 效 信道 来 保证 物理 层 安全 传输 。 赵 兆 环 等 人 "中 针对 分 布 式 天 线 的 场景 ， 
从 中 间 节 点 中 选择 一 个 最 佳 的 节点 作为 中 继 , 将 剩余 的 其 他 节点 作为 协同 干扰 节点 ,提出 了 

种 结合 最 优 中 继 选 择 和 功率 分 配 的 物理 层 安 全 方案 。Wang A psp pou EH m R 
衰退 信道 (Two-wave with Diffuse Power Fading Channel) ,提倡 利用 最 大 比 合并 (Maximal 
Ratio Combining) 技 术 提 高 信道 的 保密 率 。Hong 和 Chen 针对 采用 合作 MIMO 通信 的 
无 线 传感器 网 络 ,基于 信息 理论 和 密码 学 提出 了 一 种 跨 层 的 安全 通信 模式 ,为 网 络 中 存在 的 
妥协 节点 攻击 (Compromised Nodes Attack) 给 出 了 解决 方案 ,从 而 有 效 改 善 了 物理 层 安 全 。 
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Hanif 4& A 针对 多 用 户 多 天 线 无 线 网 络 ,通过 线性 预 编 码 策略 (Linear Precoding 
Strategies) 最 大 化 网 络 的 保密 率 。Chae 等 人 利用 带 保密 区 域 保护 的 人 工 噪声 技术 得 到 
了 最 优 的 功率 分 配 ,增强 了 随机 无 线 网 络 的 保密 率 。 

当前 ,已 有 研究 者 利用 博弈 论 研究 不 同 网 络 中 的 保密 率 问题 。 肖 宛 阳 等 人 "站 分 析 了 
传统 物理 层 安全 方法 在 解决 多 主体 最 优化 策略 求解 中 存在 的 问题 ,给 出 了 基于 博弈 论 的 物 
理 层 安全 模型 ,分 析 了 基于 博弈 论 的 物理 层 安全 建 模 方法 。 洪 颖 等 人 "针对 中 继 自私 性 
导致 数据 发 送 中 断 、 源 节点 保密 率 降低 的 问题 ,提出 了 一 种 基于 两 次 报价 博弈 机 制 的 无 线 网 
络 安全 中 继 选择 方法 。 都 晨 辉 等 人 “5 为 了 使 得 源 节 点 和 协作 节点 之 间 取 得 最 优 的 效益 分 
配 ,提出 了 一 种 基于 Stackelberg 博弈 的 能 效 最 优 报 偿 及 功率 分 配方 案 ,通过 给 定 优化 的 协 
作 干 扰 策 略 保证 了 物理 层 安全 。 黄 开 枝 等 人 "提出 了 一 种 基于 演化 博弈 的 物理 层 安全 协 
作 方 法 ,该 方法 在 定义 博弈 策略 (发 送 人 工 噪声 或 信号 ) 和 收益 (不 同 策略 组 合 下 的 安全 速 
率 ) 后 ,发 送 端 能 根据 当前 网 络 状 态 以 及 协作 收益 与 平均 期 望 收益 的 差 值 ,不 断 进行 策略 调 
整 以 最 大 化 收益 ,再 通过 求解 获得 使 发 送 端 达到 协作 稳定 策略 的 条 件 , 使 网 络 从 不 稳定 状态 
向 协作 稳定 状态 演化 ,从 而 提高 了 无 线 网 络 的 保密 率 。 林 胜 斌 等 人 "9 针对 网 络 中 恶意 干 
扰 者 通过 发 送 相 关 干 扰 破 坏 合法 通信 的 问题 ,提出 了 一 种 源 信号 和 结构 性 噪声 联合 发 送 的 
安全 传输 方法 ,该 方法 首先 建立 发 送 方 和 恶意 干扰 者 之 间 以 安全 速率 为 目标 函数 的 连续 零 
和 博弈 模型 ,然后 根据 信道 状态 确定 各 自 的 策略 集 , 并 分 析 策 略 集 对 应 的 纳什 均衡 ,最 后 利 
用 均衡 解 指导 发 送 方 合理 地 分 配 源 信号 和 结构 性 噪声 的 功率 。 吕 健 体 等 人 "针对 无 线 传 
感 器 网 络 中 传感器 节点 之 间 会 产生 相互 干扰 从 而 影响 信道 各 自 的 保密 率 问题 ,使 用 非 合作 
博弈 建立 了 无 线 传感器 网 络 在 节点 发 射 功 率 受 限 .节点 之 间 存 在 互相 干扰 的 情况 下 的 博弈 
模型 ,得 到 了 传感器 节点 发 射 功 率 的 纳什 均衡 解 ,以 获取 最 佳 的 收益 。Wang 等 人 中 针对 
包含 多 个 源 一 目标 链 路 和 一 个 中 继 节 点 组 成 的 合作 网 络 , 运 用 拍卖 理论 有 效 分 配 中 继 节点 
的 能 量 , 提 高 了 网 络 的 保密 率 。Yuksel 等 人 中 为 得 到 优化 的 源 节点 保密 率 ,建立 了 一 种 源 
节点 和 干扰 中 继 之 间 的 非 合作 博弈 模型 。Mukherjee 和 Swindlehurst “针对 MIMO 窃听 
信道 模型 ,通过 建立 以 遍历 MIMO 保密 率 为 支付 函数 的 一 个 零 和 博弈 ,得 到 了 可 靠 且 隐蔽 
的 数据 发 送 策略 。Han 等 人 5 利用 友好 的 干扰 者 干扰 窃听 者 的 通信 ,提高 源 节 点 的 保密 
率 , 建 立 了 一 种 Stackelberg 博弈 模型 ,用 以 反映 源 节点 和 友好 干扰 者 的 相互 关系 。Gabry 
等 人 5 利用 Stackelberg 博弈 分 析 认 知 无 线 电网 络 中 首次 发 送 者 (Primary Transmitter) fil 
二 次 发 送 者 (Secondary Transmitter) 之 间 的 合作 关系 ,得 到 的 Stackelberg 均衡 为 合作 提高 
认 知 无 线 电 网 络 的 保密 率 提供 了 优化 策略 。Chu 4% AU? 44 Stackelberg 博弈 用 于 解决 
MIMO 信道 中 的 功率 最 小 化 和 保密 率 最 大 化 问题 。Qu ASG] Stackelberg 博弈 解决 
D2D(Device-to-Device) 通 信和 网 络 链 路 中 的 功率 分 配 问题 ,提高 了 D2D 通信 网络 的 保密 率 。 
Saad/***! 和 Fakoorian 5*! 从 合作 博弈 角度 .分 别 引 入 联盟 博弈 和 Kalai-Smorodingsky i ffr 
还 价 博弈 ,研究 物理 层 安 全 问题 。Liu FA 以 一 个 由 源 节点 、 目 标 节 点 .窃听 节点 、 多 个 
中 继 节点 组 成 的 解码 转发 网 络 为 研究 背景 ,在 考虑 分 布 式 中 继 选 择 和 安全 波 东 成 形 的 基础 
上 分 析 网 络 的 总 保密 率 ,利用 联盟 博弈 对 中 继 选 择 问题 建立 的 博弈 模型 降低 了 计算 复杂 度 。 
Hou 和 Fu"3 面 对 无 线 网 络 中 的 合作 能 有 效 提高 物理 层 安全 的 现实 情况 ,利用 联盟 博弈 提 
出 了 一 种 用 户 有 效 加 入 联盟 和 从 联盟 中 分 型 的 算法 ,得 到 了 最 大 化 的 物理 层 保密 容量 。 

与 上 述 相关 工作 不 同 的 是 ,本 章 着 重 关注 的 是 无 线 传感器 网 络 中 一 个 传感器 节点 与 其 
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对 应 的 簇 头 通信 时 的 保密 率 ,而 大 部 分 相关 工作 主要 围绕 不 同 的 窃听 信道 展开 研究 工作 。 
为 此 ,本 章 在 扩展 经 典 保密 率 计算 公式 的 基础 上 得 到 了 能 适应 聚 簇 无 线 传感器 网 络 环境 的 
保密 率 计算 公式 。 本 章 将 博弈 论 应 用 于 解决 传感器 节点 力图 最 大 化 各 自 保 密 率 的 同时 影响 
整个 网 络 通信 的 问题 ,因此 ,建立 了 一 种 非 合 作 传感器 节点 保密 率 博弈 模型 ,并 基于 演化 博 
弈 中 的 复制 动力 学 模型 给 出 了 传感器 节点 如 何 实现 最 大 化 适应 度 的 演化 过 程 ,得 到 了 一 种 
实现 传感器 节点 保密 率 自 适应 调节 的 方法 。 


10.3 系统 模型 


10.3.1 传感器 节点 干扰 模型 


本 章 考 虑 静态 部 署 的 无 线 传感器 网 络 , 即 传感器 节点 一 旦 部 署 完毕 将 不 再 移动 。 其 中 ， 
每 个 传感器 节点 具有 唯一 的 标识 , 且 以 节点 密度 p 部 署 在 二 维 平 面 上 。 每 个 传感器 节点 配 
备 具 有 相同 增益 的 发 送 和 接收 天 线 ,并 以 半 双 工 形式 工作 , 即 不 允许 同时 发 送 和 接收 通信 数 
据 。 在 相同 区 域内 ,传感器 节点 的 接收 和 干扰 范围 主要 根据 源 节 点 和 其 他 相 邻 节点 的 发 射 
功率 确定 ,每 个 传感器 节点 能 根据 不 同 的 环境 选择 不 同 的 发 射 功 率 。 所 有 传感器 节点 的 部 
署 满 足 泊 松 分 布 规律 。 

设 re 和 x1 分 别 是 传感器 节点 的 接收 和 干扰 距离 , 则 ri 之 2rr。 通 常 ,一 个 传感器 节点 的 
最 大 干扰 节点 数 由 平均 的 相 邻 节点 数 加 上 3 fr f b fe Avo 确定 。 对 任何 一 个 传感器 节点 ， 
它 的 干扰 区 域 = 为 mri ,在 干扰 区 域 z 中 的 平均 相 邻 传感器 节点 数 为 o*r。 在 泊 松 分 布 中 ， 
5 即 为 pxr。 因 此 ,一 个 传感器 节点 的 最 大 干扰 节点 数 为 

I= pei t3 Ver (10-1) 

10.3.2 Fe AE R aa A £& rh BS] Pr CER D RR UR ERE 

如 图 10-1 HER ,本 章 研究 的 无 线 传感器 网 络 采用 聚 簇 结构。 在 该 结构 中 ,所 有 传感器 
节点 被 分 成 不 同 的 簇 。 每 个 簇 包 括 1 个 簇 头 和 若干 个 传感器 节点 。 传 感 器 节点 捕获 数据 后 
首先 将 数据 传输 到 同一 个 簇 内 的 簇 头 , 簇 头 经 数据 汇聚 后 再 通过 其 他 簇 中 的 徐 头 将 数据 传 
输 到 基站 。 需 注意 的 是 ,本 章 研 究 的 是 一 个 传感器 节点 与 其 对 应 的 簇 头 通 信 时 的 保密 率 。 


〇 传感器 节点 
口 窃听 者 


图 10-1 网 络 模型 


W S={S1; S2; Su} HS Hi He Hn) Hem ELE: ER) AEN ELM 
传感器 节点 、N 个 簇 头 和 KK 个 窃听 者 的 集合 。 对 VS。ES, 存 在 一 个 唯一 的 H,€ HIEP n 
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值 实质 由 m 值 确定 ,还 存在 由 多 个 能 窃听 传感器 节点 S。 的 窃听 者 E. 组 成 的 集合 svSe。 
id Gir "和 G 吕 分 别 表 示 从 传感器 节点 5， PRK Hy 和 窃听 者 E, 的 信道 增益 。 为 简化 模型 ， 
假设 在 敌 头 端 和 窃听 者 端的 热 噪声 功率 均 为 六， 每 个 信道 的 带宽 均 为 W。 

当 多 个 传感器 节点 同时 发 送 数据 时 ,将 产生 信号 干扰 。 对 VSwE Siu S. = (St So 
SPADE IA FR Sm 信和 号 发 送 的 干扰 者 ,其 中 工 值 由 式 (10-1) 确 定 。 ci em 
模型 计算 信道 首 容量 的 思想 可 知 , 从 传感器 节点 Sm 到 对 应 簇 头 互 。 的 信道 
Pick 


L Rh. (10-2) 
Dy Pre + 


stib P, 为 传感器 节点 S. 选择 的 发 射 功率 ; Pr 为 干扰 节点 Sr 选择 的 发 射 功率 ; GY 为 二 


扰 节 点 S” 和 簇 头 电 , 之 间 的 信道 增益 。 
类 似 地 ,从 传感器 节点 Sn 到 窃听 者 EE 的 信道 HEN 


C = Wlog; (10-3) 


BOGE Pd AST ROTER E, 之 间 的 信道 增益 。 因 此 传感器 节点 S。 和 对 应 能 头 
Ay 之 间 的 保密 率 为 

CC.) = (Ci, — maxCz* (10-4) 
SEH, Cx) * =max{x.0}, 


10.4 传感器 节点 保密 率 的 自 适 应 调节 机 制 


10.4.1 传感器 节点 保密 率 博弈 模型 


定义 10-1 传感器 节点 保密 率 博弈 模型 是 一 个 三 元 组 GE — GSP ,其 中 : 
。 5={S1,S:,… ,Sm) 表 示 整 个 无 线 传感器 网 络 中 的 传感器 节点 集合 。 


。P= || 有 表示 所 有 传感器 节点 可 选择 功率 策略 的 集合 ,P= 二 (P, | Pr PT PY} 
=1 


为 传感器 节点 S, 可 选择 的 功率 策略 P, 的 集合 ,L 表示 S, 可 选择 的 功率 策略 的 
个 数 。 
© U= {u Pn Pa) | Pn EPn Pa € Phom ME (0.2.7 M) Ao fF RAE AS, HE PE JI 
率 策略 DP, eet ng ape etd 
根据 演化 博弈 论 的 观点 ,可 将 集合 S 中 的 所 有 传感器 节点 看 作 一 个 种 群 (Population)， 
每 个 传感器 节点 对 应 种 群 中 的 一 个 个 体 。 这些 个 体能 根据 它们 当前 的 适应 度 ( 即 期 望 效用 ) 自 
动 调节 各 自 的 策略 。 也 就 是 说 ,通过 最 大 化 传感器 节点 的 适应 度 自 适应 调节 各 自 的 保密 率 。 
为 反映 传感器 节点 在 增 大 发 射 功 率 时 提高 自身 保密 率 , 同 时 增 大 自身 能 量 消耗 和 干扰 
其 他 节点 的 实际 情况 ,定义 传感器 节点 的 效用 函数 为 
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PPn Pa) = CC) 一 cP。 (10-5) 
其 中 ,C(P。) 由 式 (10-4) 确 定 ,a 是 一 个 用 于 反映 传感器 节点 在 发 送 数据 时 消耗 能 量 状况 的 
成 本 参数 。 值 得 注意 的 是 ,选择 发 射 功 率 Pa 的 干扰 节点 对 传感器 节点 5, 的 影响 已 体现 在 
COS. 


10.4.2 传感器 节点 保密 率 的 动力 学 分 析 


本 章 利用 演化 博弈 论 中 的 复制 动力 学 分 析 传感器 节点 保密 率 的 变化 过 程 。 所 有 传感器 
节点 开始 时 从 各 自 可 用 的 功率 集合 中 随机 选择 一 种 发 射 功 率 用 于 发 送 通 信 数 据 。 由 于 每 个 
传感器 节点 都 希望 最 大 化 各 自 的 适应 度 , 所 以 它们 会 与 无 线 传感器 网 络 的 平均 适应 度 进 行 
比较 ,调节 自身 的 发 射 功 率 , 即 调节 自身 的 保密 率 。 当 整个 无 线 传感器 网 络 的 平均 适应 度 高 
于 传感器 节点 自身 的 适应 度 时 ,它们 通过 改变 自身 的 发 射 功率 ,改变 自身 的 适应 度 ; 否则 ， 
保持 原来 的 发 射 功率 。 记 (2) 为 时 刻 1 选择 功率 策略 j 的 传感器 节点 在 整个 无 线 传感器 网 
络 中 所 占 的 比例 , 则 有 

Saw 一 1 (10-6) 


JEP, 

整个 的 状态 00) 可 表示 为 [bm OD ,bm (D ，…,0m CO] ,可 看 作 整个 无 线 传感器 网 络 的 混 

合 策略 。 记 ! 为 传感器 节点 Sn 的 对 手 Sn 选择 的 功率 策略 。 根 据 参考 文献 [28] 可 得 , 传 感 
器 节点 S, TEIA c 选择 功率 策略 j 的 适应 度 为 


WD) = YAOpGD (10-7) 
IEP 
其 中 ,py(j, 人 ) 由 式 (10-5) 确 定 。 整 个 无 线 传感器 网 络 在 时 刻 1 的 平均 适应 度 为 
rox 2 (Oyj (10-8) 
相应 地 ,可 定义 传感器 节点 S, 在 时 刻 t 选择 功率 策略 的 期 望 保密 率 GOH 
tO = >)0(OCO) (10-9) 
lE Ph 
其 中 ,CG) 由 式 (10-4) 确 定 。 整 个 无 线 传 感 器 网 络 在 时 刻 : 的 平均 期 望 保密 率 5 O A 
£u = Hawg (10-10) 
JER, 


下 面 分 析 传 感 器 节点 的 策略 改变 率 。 记 r;(0) 为 选择 功率 策略 j 的 传感器 节点 的 平均 
策略 改变 率 ,p; (90) 为 传感器 节点 改变 当前 功率 策略 j 到 g 的 概率 , 则 整个 无 线 传感器 网 络 
中 改变 功率 策略 j 到 gq 的 传感器 节点 所 占 比例 为 9;(2)x;(0)p3(0)。 因 此 ,从 功率 策略 j 转 
换 为 其 他 功率 策略 的 传感器 节点 转 出 总 比例 为 

DO Dr OD = GOO A HO = ODr D1— pI) (10-11) 


7j qj 


从 其 他 功率 策略 转换 到 功率 策略 7 的 传感器 节点 转 人 总 比例 为 $19. Or OO PICO) « 

至 此 ,将 选择 功率 策略 j 的 传感器 节点 转 人 总 比例 减 去 转 出 总 比例 ,可 得 到 整个 无 线 伟 
感 器 网 络 中 选择 功率 策略 j 的 传感器 节点 比例 变化 的 动力 学 方程 为 
(XO) = M Qr O p30) — 0;COr;COX1 — pi(0)) = So. rO pO) — Gr 


qj 


(10-12) 
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式 (10-12) 中 的 好 (0) 决定 于 选择 功率 策略 j 和 4 38 ZEE pu; CO A pg). RA pg > 
所 (四 时 ,传感器 节点 才 会 从 功率 策略 j 改变 为 a。 因此 ,存在 一 个 连续 可 微 的 概率 分 布 函 数 
$17 一 [0,1], 使 得 
$Gq4QQn — ij QD. qj 


H = - 
py (0) DT a (10-13) 
Fi 


为 简化 分 析 过 程 , 令 所 有 传感器 节点 的 平均 策略 改变 率 恒 等 于 1, 即 
Vj€ Pm, rj(00)—1 (10-14) 
将 式 (10-13) 和 式 (10-14) 代 入 式 (10-12), 则 整个 无 线 传感器 网 络 中 选择 功率 策略 j 的 
传感器 节点 比例 变化 的 动力 学 方程 为 


0,0) = 60) PAD CQ OO) — pa Q0) — Gu G) — py (1) (10-15) 
quj 
根据 参考 文献 [18] 中 线性 化 函数 $ 的 思想 ,可 设 
$x) = p+ yr (10-16) 


其 中 ,8,yER AOSBtyxr< 1, HR C10-16) FEA X C10- 150 ,得 到 整个 无 线 传 感 器 网 络 中 
选择 功率 策略 j 的 传感器 节点 比例 变化 的 动力 学 方程 为 
8; (0) = 20; D0 Gs DO — pg (0) (10-17) 


qj 


式 中 ,7 为 一 个 影响 整个 无 线 传感器 网 络 达到 演化 稳定 策略 收敛 速度 的 参数 。 
10.4.3 传感器 节点 保密 率 博弈 模型 的 收敛 性 和 稳定 性 
引 理 10-1 车 功率 策略 j 是 严格 占 优 的 , 则 limb(2) 一 1。 


WEBB 若 功率 策略 7 是 严格 占 优 的 , 则 不 管 其 他 传感器 节点 选择 何 种 功率 策略 ,选择 功 
率 策略 j 的 传感器 节点 都 能 得 到 比 选择 其 他 功率 策略 更 高 的 适应 度 。 因 此 ,更 多 的 传感器 
节点 会 选择 功率 策略 j ,使 得 选择 功率 策略 j 的 传感器 节点 比例 在 整个 种 群 中 逐步 提高 ,最 
终 所 有 的 传感器 节点 均 会 选择 功率 策略 j 作为 它们 的 功率 策略 , 即 lim0; (2) = 1. 证 毕 。 

定理 10-1 整个 无 线 传感器 网 络 的 混合 策略 OC) We EY fi ex o 

WEBB 显然 ,在 无 线 传感器 网 络 环境 中 ,选择 不 同 的 功率 策略 将 得 到 不 同 的 适应 度 , 这 
意味 着 在 所 有 的 功率 策略 中 只 有 一 种 功率 策略 具有 最 高 的 适应 度 .将 所 有 的 功率 策略 对 应 
的 适应 度 进行 降 序 排列 后 .这 些 降 序 的 适应 度 可 用 ja (D. > pr) 29 > po) 表示 ,相应 
地 ,整个 种 群 的 状态 可 记 为 limb(z) = [0 CO 408 (D n 0100 。 由 引 理 10-1, 在 满足 限制 条 件 


GD 三 0 和 >)0(0) = 1 前 提 下 ,整个 无 线 传感器 网 络 的 混合 策略 最 终 收 全 于 
j€?, 


limb(z) = [6 (0.6: 0 0100] = [1.0.7.0] (10-18) 
teo —S 
L 
证 毕 。 
定理 10-2 ”传感器 节点 保密 率 博弈 模型 是 演化 稳定 的 。 
证 明 FDO = 1, 可 设 
JER, 


0) = 1—0 Ct) —::—8,0) (10-19) 
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再 将 式 (10-19) 代 入 式 (10-15) 后 ,可 得 时 刻 1 选择 功率 策略 j 的 传感器 节点 在 缩减 种 群 
(Downsized Population) 中 所 占 的 比例 的 动力 学 方程 为 


P 
9,0) — GO| G+ >) IM (10-20) 
i-P? dj 
其 中 JE {PY ,… PEY; pia = Gg) — pa 00) — $ Ga — pj (D) EB. 
0) = [9 CO 9s (1) ,DL(7)] (10-21) 


表示 相应 的 整个 种 群 状 态 。 由 定理 10-2, 可 得 均衡 点 9 (0 一 [0,0,…,0]。 这 样 可 以 得 到 
i=} 


( 工 一 1) X ( 工 一 1) 的 Jacobian 矩阵 元 素 


Mn 29,0) E 
Ja E: ] eee 
其 中 ,j,g€E (P38 ,…, PY)。 所 以 ,相应 的 Jacobian 矩阵 可 表示 为 
emm 0 0 
0 i 0 
J=] a. f (10-23) 
0 0 Ut piip 


在 式 (10-23) 中 ,pprpr some «7t operer 3: Ht EF Jacobian 矩阵 了 特征 值 。 由 引 理 10-1. 
MPV j€ (P? PE) WE $40) G0. AE n] £35] 
quz = $(uGO — p (OD) — FG) — ii (0) —— aC) — py) <0 00-24) 
由 文献 [489] 中 的 定理 2. 7. 3 可 得 均衡 点 9 (7) 二 [0,0,…,0] 是 演化 稳定 的 。 证 毕 。 


L-1 


10.4.4 传感器 节点 保密 率 自 适应 调节 算法 


在 每 个 传感器 节点 自 适应 调节 各 自 保密 率 的 过 程 中 ,首先 计算 各 自 当前 的 适应 度 , 然 后 
再 与 整个 无 线 传感器 网 络 的 平均 适应 度 进行 比较 。 若 差 值 大 于 一 个 给 定 的 上 限 值 , 则 根据 
式 (10-17) 选 择 新 的 功率 策略 。 反 复 进 行 该 过 程 , 直 到 整个 无 线 传感器 网 络 达到 演化 稳定 
状态 ,此 时 每 个 传感器 节点 选择 的 功率 策略 为 演化 稳定 策略 ,对 应 最 优 的 网 络 效用 。 在 整个 
演化 过 程 中 ,传感器 节点 通过 自 适应 改变 选择 的 功率 策略 实现 保密 率 的 自 适应 调节 。 传 感 
器 节点 保密 率 自 适应 调节 算法 的 具体 过 程 如 下 。 
算法 10-1 传感器 节点 保密 率 自 适 应 调节 算法 。 
1. 初始 化 W、T、 注 和 信道 增益 等 所 有 参数 。 
2. t0. 
3. 以 概率 907) 二 [1/ 工 ,1/L,…,1/j 选 择 一 种 功率 策略 j。 
// 这 种 “等 概率 ”的 选择 可 以 保证 传感器 节点 保密 率 博弈 开始 时 每 个 传感器 节点 具 
// 有 相同 的 适应 度 。 
4. 根据 式 (10-7) 和 式 (10-8) 分 别 计算 传感器 节点 选择 功率 策略 j 的 适应 度 yj CO RUE 
个 无 线 传感器 网 络 的 平均 适应 度 a). 
5. 根据 式 (10-9) 和 式 (10-10) 分 别 计算 传感器 节点 选择 功率 策略 7 的 期 望 保密 率 &;(7) 
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和 整个 无 线 传感器 网 络 的 平均 期 望 保密 率 5(z) 。 

6. DO WHILE. T. 

7. IF |gCO—u (D |. //r 表 示 一 个 给 定 的 下 限 值 

8. EXIT 

9. ENDIF 

10. IF |D- u> /位 表示 一 个 给 定 的 下 限 值 

Ti. 根据 式 (10-17) 计 算 功 率 选 择 概率 0(z 十 1) 。 

12. 以 0(1 十 1) 选 择 一 个 新 的 功率 策略 j。 

13. 根据 式 (10-7) 和 式 (10-8) 分 别 计算 传感器 节点 选择 功率 策略 j 的 适应 度 
pi(t 十 1) 和 整个 无 线 传感器 网 络 的 平均 适应 度 GE. 

14. ”根据 式 (10-9) 和 式 (10-10) 分 别 计算 传感器 节点 选择 功率 策略 7 的 期 望 保密 率 
£; (1 十 1) 和 整个 无 线 传感器 网 络 的 平均 期 望 保 密 率 5 (1 十 1)。 

15. ENDIF 

16. t<t+1 

17. END DO 

8. 返回 数组 和 和。 


10.5 实验 


由 于 传感器 节点 在 计算 能 力 ,存储 能 力 和 能 量 等 方面 具有 局 限 性 ,实验 过 程 中 假设 每 个 
传感器 节点 在 传感器 节点 保密 率 博弈 过 程 中 能 选择 的 功率 策略 集合 仅 包含 两 个 策略 。 也 就 
EBE X V Smo Pa = (Pu Ph) ,其 中 Pn 和 Pi 分别 表示 高 功率 策略 和 低 功率 策略 。 

传感器 节点 保密 率 博弈 模型 中 的 参数 根据 IEEE 802. 15. 4 物理 层 规范 进行 设置 。 其 
中 ,p=0.01, W —2MHz. Py —30mW. P, —10mW. o = —112dBm. Gi; —1.Gz —0. 6, 
由 于 传感器 节点 选择 的 功率 越 大 ,产生 的 干扰 范围 越 大 ,所 以 分 别 设置 ra = 50m fI ri — 
10m, 其 中 ,ra 和 广 分别 表示 传感器 节点 选择 功率 策略 Pn 和 Pi 产生 的 干扰 半径 。 另 外 ， 
根据 经 验 值 假设 干扰 者 的 工作 概率 为 0. 01。 这 样 结合 式 (10-1) ,可 得 到 选择 功率 策略 Pu 
和 Pi 的 干扰 节点 数量 分 别 为 0. 01X Cor +3 Soar) Al 0. 01X (orri +3 Vorri). 

为 方便 描述 , 记 0n (7) 为 整个 无 线 传感器 网 络 中 传感器 节点 在 时 刻 1 选择 功率 策略 Pn 
所 占 的 比例 , 则 整个 无 线 传感器 网 络 中 传感器 节点 在 时 刻 选择 功率 策略 PL 所 占 的 比例 为 
1 一 0n(1)。 由 式 (10-7) ,传感器 节点 在 时 刻 : 选择 功率 策略 Pa 和 PL 的 适应 度 yn CO FU 
p.) DS 


- 


pu OD) = On CO p PaPa) + ( — On) (Pus Pr) (10-25) 
p(t) = On CO p CP Pu +A — 0n COO p CP Pr) (10-26) 

由 式 (10-8) ,整个 无 线 传感器 网 络 在 时 刻 1 的 平均 适应 度 为 
BO) = On Opn + A — 0n GOD ua CO (10-27) 


由 式 (10-9) ,传感器 节点 在 时 刻 上 选择 功率 策略 Pa 和 Py 的 期 望 保密 率 Cu CO Fl CL CO A 
别 为 
u(t) = On CO Cn + (0 — Oa COO Cr (10-28) 
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ELA) = OnCO Sin + C1 — On) br 


(10-29) 


其 中 Geo pus v€ (AL) ,表示 当 干 扰 节 点 选择 功率 策略 P. 时 ,一 个 选择 功率 策略 Pa 的 传 感 
器 节点 的 保密 率 ,其 值 由 式 (10-4) 计 算得 到 。 由 式 (10-10) ,整个 无 线 传感器 网 络 在 时 刻 1 


的 平均 期 望 保密 率 为 


即使 最 初 选择 功率 策略 Pu 的 比例 只 有 0.5%, 当 + (LX 1 


CO) = MO En CO + C. Qu COD EC 
由 算法 10-1. Al 10-2 和 图 10-3 给 出 了 当成 本 参数 值 为 3 时 传感器 节点 的 自 适应 调 
节 过 程 。 在 图 10-2 中 ,Pa 是 传感器 节点 保密 率 博 弈 模型 的 演化 稳定 策略 。 从 中 可 以 看 出 ， 


F 40 后 ,9n GO IRI 


(10-30) 


F 稳 定 值 1。 这 


意味 着 传感器 节点 选择 功率 策略 Pn 的 适应 度 总 是 高 于 选择 PL 的 适应 度 ,因此 所 有 的 传 感 
器 节点 经 过 自 适 应 调节 最 终 均 选 择 Pa 作为 自己 的 功率 策略 。 此 时 ,如 图 10-3 HFR gu O) 
收敛 后 的 极限 值 约 为 132.9976,&.(7) 收 敛 后 的 极限 值 约 为 48. 4474,5 (17) 收敛 后 的 极限 值 


约 为 132. 9148。 


OH(D) 


—* 0,(0)-0.005 
—*— 0,(0)-0.255 
—— 04(0)-0.555 


5 10 15 20 25 30 35 40 45 50 55 
DE) 


图 10-2 a=3 时 的 On CO WALS 


——ün 
—e— üt) 
=o) 


4 " pep ope 
3 10 15 20 25 30 35 40 45 30 55 
时 刻 


图 10-3 a—3 时 的 期 望 保 密 率 演 化 趋势 
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由 算法 1, 图 10-4 和 图 10-5 给 出 了 当成 本 参数 a 值 为 4. 5 时 传感器 节点 的 自 适 应 调节 
过 程 。 在 图 10-4 中 ,传感器 节点 保密 率 博弈 模型 存在 一 个 演化 稳定 混合 策略 ( 约 为 
[0. 6841, 0. 3158]) 。 达 到 该 均衡 点 意味 着 约 68. 41% 的 传感器 节点 选择 Pa, 而 约 31. 58% 
的 传感器 节点 选择 PL。 此 时 ,传感器 节点 选择 Pa 或 Pr 具有 相同 的 适应 度 , 但 从 图 10-5 
可 看 出 ,tn (四 收敛 后 的 极限 值 约 为 141. 8309., 纪 (CD 收敛 后 的 极限 值 约 为 51. 8309 ,5 CO cS 
后 的 极限 值 约 为 113. 3949。 这 说 明 虽 然 选择 功率 策略 Pa 的 期 望 保密 率 值 要 高 ,但 并 非 所 
有 的 传感器 节点 都 选择 Pa 作为 自身 的 功率 策略 。 


Lor 


——04(0)-0.155 


E os —4— 6,(0)-0.500 
$ —s5— 0,(0)-0.855 
4 (0) 
03 
02 
0.1} 
n MEN iq d ， 
0 5 10 15 20 25 30 35 40 45 50 55 
时 刻 
图 10-4 a—4.5 时 的 gu(D) 演 化 趋势 
180 
160, 
140+ MMM 
$ 120} 
= 
到 100 上 
m ——t() 
80 tli) 
一 一 50) 
— 
40 


0 3 10 15 20 25 30 35 40 45 50 55 
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图 10-5 a-—4.5 时 的 期 望 保密 率 演 化 趋势 


由 算法 1, 图 10-6 和 图 10-7 给 出 了 当成 本 参数 a 值 为 6 时 传感器 节点 的 自 适应 调节 过 
程 。 在 图 10-6 中 ,Pi 是 传感器 节点 保密 率 博弈 模型 的 演化 稳定 策略 。 从 中 可 以 看 出 ,即使 
最 初 选 择 功率 策略 Pn 的 比例 达到 99. 5%, 当 1 值 大 于 30 后 ,ba(1) 趋 向 于 稳定 值 0。 这 意 
味 着 传感器 节点 选择 已 的 适应 度 总 是 高 于 选择 Pu 的 适应 度 , 因 此 ,所 有 的 传感器 节点 经 
过 自 适应 调节 最 终 均 选择 PL 作为 自己 的 功率 策略 。 此 时 ,如 图 10-7 HER Eu O SUA AY 
极限 值 约 为 161. 0138. 所 (2 收敛 后 的 极限 值 约 为 59. 1789. € CO 收敛 后 的 极限 值 约 为 
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Py 作为 自身 的 功率 策略 。 
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图 10 
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图 10-7 
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DES 
a— 6 时 的 期 望 保密 率 演化 趋势 


展 的 保密 率 公式 可 适应 聚 得 无 线 传感器 网 络 环境 ,构建 


的 传感器 节点 保密 率 博弈 模型 能 反映 传感器 节点 的 交互 过 程 。 基 于 演化 博弈 论 中 复制 动力 
学 原理 的 传感器 节点 比例 变化 动力 学 方程 ,能 使 传感器 节点 根据 自身 当前 的 适应 度 和 无 线 
传感器 网 络 的 平均 适应 度 , 动 态 选择 自身 的 功率 策略 ,是 一 种 自 适 应 调节 传感器 节点 保密 率 
的 方法 。 实 验 进一步 前 明了 该 方法 的 机 理 , 为 利用 物理 层 安 全 技术 保证 无 线 传 感 器 网 络 数 


据 的 保密 性 提供 了 新 途径 。 
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